多元统计分析--聚类分析(系统性聚类、K均值聚类)

本文介绍了聚类分析的基本思想和应用,详细讲解了系统聚类和K均值聚类的方法,包括各种距离度量标准。通过实例展示了聚类过程,并提供了K均值聚类的练习题。
摘要由CSDN通过智能技术生成

摘要

系统聚类分为Q型聚类与R型聚类。前者对样品进行聚类,后者对变量进行聚类。在本文中,我们探讨对样品的分类。

主要思想

聚类,在样品没有给定历史分类信息的前提下,仅依靠样品之间的相似性进行分类。对于“相似”的样品,将其分为一类。而这种相似性,将要依靠“距离”进行度量。

相似性的度量

正如上述所说,根据样品间的相似性(靠近程度)进行聚类,样品间的靠近程度就利用距离进行衡量。
每个拥有p个变量观测值的样品可以看作p维空间中的一个点,若存在n个样品,即该空间就存在n个点。
利用距离来定义n个点中两两之间的距离,设有两点 x = ( x 1 , x 2 , . . . , x p ) T x=(x_1,x_2,...,x_p)^T x=(x1,x2,...,xp)T y = ( y 1 , y 2 , . . . , y p ) T y=(y_1,y_2,...,y_p)^T y=(y1,y2,...,yp)T
下面介绍几种距离:

  1. 欧氏距离
    d 2 ( x , y ) = ∑ i = 1 p ( x i − y i ) 2 = ( x − y ) T ( x − y ) d^2(x,y)=\sum_{i=1}^p(x_i-y_i)^2=(x-y)^T(x-y) d2(x,y)=i=1p(xiyi)2=(xy)T(x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值