机器学习(Machine Learning and Data Mining)CS 5751——final复习记录(1
因为是整理来给自己看的,所以都是大纲……
(1)非监督学习Unsupervised Learning
类聚分析
A clustering is a set of clusters
(1)分区类聚Partitional Clustering
(2)分层类聚Hierarchical clustering
不同的类聚:
●分离良好的集群
(1)最小化簇内距离
(2)群集间距离最大化
●基于中心的群集
●连续集群
●基于密度的群集
●财产或概念
●由目标函数描述
具体算法:
1.K-means及其变体
2.分层聚类
3.基于密度的聚类
K-means
分区聚类方法
●必须指定簇数K.
●每个群集都与一个质心(中心点)相关联
●每个点都分配给具有最近质心的群集
●基本算法非常简单
●质心(通常)是群集中点的平均值。
●“接近度”由欧几里德距离,余弦相似度,相关性等来衡量。
●K-means将收敛于上述常见的相似性度量。
●大多数收敛发生在前几次迭代中。
() 停止条件通常会更改为“直到相对较少的点更改群集”
●复杂度为O(n * K * I * d)
()n =点数,K =簇数,I =迭代次数,d =属性数
●Sum of Squared Error (SSE)
(1)x是聚类Ci中的数据点,mi是聚类Ci的代表点
(2)给定两组集群,我们更喜欢具有最小SSE的集群
(3)减少SSE的一种简单方法是增加K,即簇的数量
注: 一个好的clustering在k值小的情况下拥有小的sse,而不是拥有极大的k
K-means 存在的问题
(1&