聚类的本质
聚类:实质上就是将一组多类数据,分成固定类别的方法,考虑到不同维度空间,之际就是数据的降维

主要内容

相似度
样本点到目标的距离其实是等级于样本点于此目标类别的相似度(不同的相似度计算方法适用于不同场景)

K-means

步骤:
①指定初始类别,分别计算各样本到类别中心距离,取最小值距离作为此样本类别
②统计每个类别的样本均值,将次均值作为新的类别中心,不断迭代
③通过指定的迭代次数、簇中心变化率、最小平方误差作为判断循环终止的标准
存在问题:异常值、初值选择

一般采用方法:①异常值:过滤噪声
②初值选择:K_mean++算法,对于初值

K-means公式化解释
将各簇平方误差累加作为总体误差,目标函数越小越佳

注:K均值对于样本有一定要求(使用K-means的样本要求)
—由K各高斯分布混合得到的并且每个簇中的方差都相同
大样本采用minibatch

K-means衡量标准




338

被折叠的 条评论
为什么被折叠?



