2022-2-18第四章机器学习进阶--聚类

最新推荐文章于 2024-07-02 13:08:57 发布

YJF-NJU

最新推荐文章于 2024-07-02 13:08:57 发布

阅读量500

点赞数

文章标签：聚类机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45526009/article/details/123006186

版权

聚类的本质

聚类：实质上就是将一组多类数据，分成固定类别的方法，考虑到不同维度空间，之际就是数据的降维
在这里插入图片描述

主要内容

在这里插入图片描述

相似度

样本点到目标的距离其实是等级于样本点于此目标类别的相似度（不同的相似度计算方法适用于不同场景）

在这里插入图片描述

K-means

在这里插入图片描述
步骤：
①指定初始类别，分别计算各样本到类别中心距离，取最小值距离作为此样本类别
②统计每个类别的样本均值，将次均值作为新的类别中心，不断迭代
③通过指定的迭代次数、簇中心变化率、最小平方误差作为判断循环终止的标准

存在问题：异常值、初值选择
在这里插入图片描述
一般采用方法：①异常值：过滤噪声
②初值选择：K_mean++算法，对于初值

K-means公式化解释

将各簇平方误差累加作为总体误差，目标函数越小越佳
在这里插入图片描述注：K均值对于样本有一定要求（使用K-means的样本要求）
—由K各高斯分布混合得到的并且每个簇中的方差都相同

大样本采用minibatch

在这里插入图片描述

K-means衡量标准

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2022-2-18第四章机器学习进阶--聚类

聚类的本质聚类：实质上就是将一组多类数据，分成固定类别的方法，考虑到不同维度空间，之际就是数据的降维主要内容相似度样本点到目标的距离其实是等级于样本点于此目标类别的相似度（不同的相似度计算方法适用于不同场景）K-means步骤：①指定初始类别，分别计算各样本到类别中心距离，取最小值距离作为此样本类别②统计每个类别的样本均值，将次均值作为新的类别中心，不断迭代③通过指定的迭代次数、簇中心变化率、最小平方误差作为判断循环终止的标准存在问题：异常值、初值选择一般采用方法：①异常值：
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。