层次聚类的分类
- 凝聚的层次聚类:自底向上;把每个对象都看成一个簇,自下而上,把相似的簇合并在一起直到合并成一个簇
- 分类的层次聚类:自顶向下;从包含所有点的簇开始,每一次分裂一个簇,直到仅剩下单点的簇
簇之间的凝聚性
单链:
定义:两个簇的邻近度为两个簇中的任意两个点之间的最短距离
计算公式:dist({m1,m2},{m3,m4})=min(dist{m1,m3},dist{m1,m4},dist{m2,m3},dist{m2,m4})
特点:单链技术擅长处理非椭圆形的簇,但对噪音和离群点很敏感。
全链:
定义:两个簇的邻近度为两个簇中的任意两个点之间的最长距离
计算公式:dist({m1,m2},{m3,m4})=max(dist{m1,m3},dist{m1,m4},dist{m2,m3},dist{m2,m4})
特点:全链技术擅长处理圆形的簇,但对噪音和离群点不太敏感。
组平均:
定义:两个簇的邻近度为两个簇中的任意两个点之间的平均距离
计算公式:dist({m1,m2},{m3,m4})=(dist{m1,m3}+dist{m1,m4}+dist{m2,m3}+dist{m2,m4}) ÷