问题3 针对K均值算法的缺点,有哪些改进的模型?
K
均值算法的主要缺点如下:
(
1
)需要人工预先确定初始
K
值,且该值和真实的数据分布未必吻合
(
2
)
K
均值只能收敛到局部最优,效果受到初始值很大
(
3
)易受到噪点的影响
(
4
)样本点只能被划分到单一的类中
改进的模型:
■ K-means++
算法
■ ISODATA
算法
问题4 证明K均值算法的收敛性
K
均值聚类的迭代算法实际上是一种最大期望算法(Expectation-Maximization algorithm
),简称
EM
算法。
EM
算法解决的是在概率模型中含有无法观测的隐含变量情况下的参数估计问题。