上一讲已经给出了类内距离的概念。
针对这个概念,有人从完全不同的两个角度给出了方法。
这就是聚类变换与K-L变换。本章介绍聚类变换。
降维到底是在干什么?
各个特征(各个分量)对分类来说,其重要性当然是不同的。
舍去不重要的分量,这就是降维。
关键问题是,什么叫不重要?
这就是为什么会有两种不同的变换了。
聚类变换认为:重要的分量就是能让变换后类内距离小的分量。
类内距离小,意味着抱团抱得紧。
可以证明,为了让变换后类内距离小,必须保留方差小的分量,并且赋予更大的权值。
直观上好理解:对于某一类来说,某个分量的观察值会有起伏,这是由观察误差引起的。如果某个数据的方差越小,则表明观察值越可靠。那么,对那些方差小的分量给予较大的权值(这是因为这些分量更可靠),反之给予更小的权值。这样变换后,同类的点就能包得更紧了。
证明一下:为了让变换后类内距离小,必须保留方差小的分量,并且赋予更大的权值。
为简单起见,设这个W阵为对角阵,即先仅仅考虑只改变坐标尺度的变换W。
假定原有向量a和b,属于同一类别。经变换后得
则和之间的距离的平方为: