一、聚类算法总括
1.1 定义
对大量未标注的数据集按数据内部存在的数据特征划分为多个不同类别,使类别内数据比较相似,类别间数据相似度比较小。
1.2 和分类算法区别
分类算法:有监督学习
聚类算法:无监督学习
1.3 样本相似度度量
1.3.1 闵可夫斯基距离(Minkowski)
a. p=1:曼哈顿距离
b. p=2:欧氏距离(常用)
c. p为无穷大:切比雪夫距离
1.3.2 标准化欧氏距离
1.3.3 夹角余弦相似度(值越大代表越相似)
1.3.4 KL距离(相对熵)(知道一下就行了,一般不用)
1.3.5 杰卡德相似系数(Jaccard)(常用,适合比较稀疏的特征,如文本特征)
1.3.6 Pearson相关系数
1.4 聚类基本思想
给定一个有M个对象的数据集,构建一个具有k个簇(类别)的模型。首先给定初始划分,迭代改变样本和簇的隶属关系,使得每次迭代后的划分都比上一次的好。划分条件:①每个簇至少包含一个对象;②每个对象属于且仅属于一个簇。
1.5 聚类算法的衡量指标(只在训练时可以看看,用得不多)
1.5.1 均一性(一个簇中只包含一个类别的样本),每个聚簇中正确分类的样本数占该聚簇总样本书的比例和
1.5.2 完整性(同类别样本被归类到相同簇中),每个聚簇中正确分类的样本数占该类型的总样本数比例的和
1.5.3 V-measure:均一性和完整性的加权平均
1.5.4 Rand index(兰德指数),取值范围[0, 1],值越大意味着聚类结果与真实情况越吻合
1.5.5 调整兰德指数(ARI),取值范围[-1,