聚类的本质
聚类:实质上就是将一组多类数据,分成固定类别的方法,考虑到不同维度空间,之际就是数据的降维
主要内容
相似度
样本点到目标的距离其实是等级于样本点于此目标类别的相似度(不同的相似度计算方法适用于不同场景)
K-means
步骤:
①指定初始类别,分别计算各样本到类别中心距离,取最小值距离作为此样本类别
②统计每个类别的样本均值,将次均值作为新的类别中心,不断迭代
③通过指定的迭代次数、簇中心变化率、最小平方误差作为判断循环终止的标准
存在问题:异常值、初值选择
一般采用方法:①异常值:过滤噪声
②初值选择:K_mean++算法,对于初值
K-means公式化解释
将各簇平方误差累加作为总体误差,目标函数越小越佳
注:K均值对于样本有一定要求(使用K-means的样本要求)
—由K各高斯分布混合得到的并且每个簇中的方差都相同
大样本采用minibatch
K-means衡量标准