特征选择(二)-聚类变换

本文介绍了聚类变换作为特征选择的一种方法,强调了保留方差小的特征以减小类内距离的重要性。通过主成分分析(PCA)找出数据分布的主要方向,并通过调整权重实现类内距离最小化。文章探讨了两种约束条件下的矩阵W求解,最终完成特征选择的过程。
摘要由CSDN通过智能技术生成

上一讲已经给出了类内距离的概念。

针对这个概念,有人从完全不同的两个角度给出了方法。

这就是聚类变换K-L变换。本章介绍聚类变换。

 

降维到底是在干什么?

各个特征(各个分量)对分类来说,其重要性当然是不同的。

舍去不重要的分量,这就是降维。

 

关键问题是,什么叫不重要

这就是为什么会有两种不同的变换了。

 

聚类变换认为:重要的分量就是能让变换后类内距离小的分量

类内距离小,意味着抱团抱得紧

可以证明,为了让变换后类内距离小,必须保留方差小的分量,并且赋予更大的权值

 

直观上好理解:对于某一类来说,某个分量的观察值会有起伏,这是由观察误差引起的。如果某个数据的方差越小,则表明观察值越可靠。那么,对那些方差小的分量给予较大的权值(这是因为这些分量更可靠),反之给予更小的权值。这样变换后,同类的点就能包得更紧了。

 

证明一下:为了让变换后类内距离小,必须保留方差小的分量,并且赋予更大的权值。

为简单起见,设这个W阵为对角阵,即先仅仅考虑只改变坐标尺度的变换W


假定原有向量ab,属于同一类别。经变换后得


之间的距离的平方为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值