百面机器学习—7.K均值算法、EM算法与高斯混合模型要点总结

最新推荐文章于 2021-05-10 20:21:13 发布

哎呦-_-不错

最新推荐文章于 2021-05-10 20:21:13 发布

阅读量1k

点赞数 3

分类专栏： # 《百面机器学习》文章标签： K均值算法 EM算法高斯混合模型百面机器学习

本BLOG上原创文章未经本人许可，不得用于商业用途，转载请注明出处。

本文链接：https://blog.csdn.net/weixin_46649052/article/details/116046139

版权

文章目录

插眼：

一、总结K均值算法步骤

在这里插入图片描述

二、如何合理选择K值？

手肘法
我们可以尝试不同的K值，并将不同K值所对应的损失函数画成折线，横轴为K的取值，纵轴为误差
平方和所定义的损失函数。

由图可见，K值越大,距离和越小;并且，当K=3时,存在一个拐点,就像人的肘部一样;当K∈(1,3)时，曲线急速下降;当K>3时，曲线趋于平稳。手肘法认为拐点就是K的最佳值。
Gap Statistic 方法

Gap(K)为随机样本的损失与实际样本的损失之差。试想实际样本对应的最佳簇数为K，那么实际样本的损失应该相对较小，随机样本损失与实际样本损失之差也相应地达到最大值，从而Gap(K)取得最大值所对应的K值就是最佳的簇数。

由图可见，当K=3时，Gap(K)取值最大，所以最佳的簇数是K=3。
不同的K值将输出不同的结果，我们可以通过考察簇的分离情况与簇的紧凑情况来评估聚类效果。即利用轮廓系数评估指标来选择适当K值。当然这种方式可能存在问题，因为K均值聚类效果易受初始点的影响，而K均值算法中会随机选取数据集的K个点作为初始聚类中心，不能确保不同K对应的初始聚类中心是一样的。

三、K均值算法的优缺点是什么？

优点：

对于大数据集，K均值聚类算法相对是可伸缩和高效的，它的计算复杂度是O(NKt)接近于线性，其中N是数据对象的数目，K是聚类的簇数，t是迭代的轮数。
尽管算法经常以局部最优结束，但一般情况下达到的局部最优

最低0.47元/天解锁文章

哎呦-_-不错

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
百面机器学习—7.K均值算法、EM算法与高斯混合模型要点总结

文章目录一、总结K均值算法步骤二、如何合理选择K值？三、K均值算法的优缺点是什么？四、如何对K均值算法进行调优？五、EM算法解决什么问题？六、EM算法流程是什么？六、EM算法能保证收敛嘛？如果收敛能收敛到全局最大值嘛？七、EM为什么不用牛顿法或者梯度下降?八、高斯混合模型GMM的核心思想是什么？九、高斯混合模型是如何迭代计算的？十、高斯混合模型与K均值算法比较十一、如何快速收敛数据量大的k-means算法？一、总结K均值算法步骤二、如何合理选择K值？手肘法我们可以尝试不同的K值，并将不同K值所对
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。