聚类指标

1.轮廓系数(聚类的内部评价指标)。在sklearn里,有个函数silhouette_score可以使用,silhouette_score返回的是所有样本点轮廓系数的平均值。silhouette 是一个衡量一个结点与它属聚类相较于其它聚类的相似程度。取值范围-1到1,值越大表明这个结点更匹配其属聚类而不与相邻的聚类匹配。silhouette 可以根据任意距离度量,如 Euclidean distance , Manhattan distance。(可以用来评估簇的个数是否合适,或着辅助样本标签,值越接近于1越好)

公式:对于一个样本点,(b - a)/max(a, b),a为类内距离,b为样本点到与其最近的非此类的距离。

2.CH指标(聚类的内部评价指标)。在sklearn里,有个函数calinski_harabaz_score可以使用。通过计算类内各点与类中心的距离平方和来度量类内的紧密度(分母),通过计算类间中心点与数据集中心点距离平方和来度量数据集的分离度(分子),CH指标由分离度与紧密度的比值得到,计算速率比轮廓系数快很多。

CH越大代表着类自身越紧密,类与类之间越分散,即更优的聚类结果。

  • 3
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值