一、KNN
确定训练样本,以及某种距离度量。
对于某个给定的测试样本,找到训练集中距离最近的k个样本,对于分类问题使用“投票法”获得预测结果,对于回归问题使用“平均法”获得预测结果。还可基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。
当k取不同值时,分类结果会有显著不同。
若采用不同的距离计算方式,则找出的“近邻”可能有显著差别,从而也会导致分类结果有显著不同
二、维数灾难
一般情况下,如果使用现有特征获得的分类器性能不佳,则会考虑添加新的特征,以提高分类器性能(以运算复杂度为代价)。
三、主成分分析(PCA)
若
与
正交,则新坐标系是一个正交坐标系,此时 W为正交变换。
显然,新空间中的属性是原空间中的属性的线性组合。
-
推导:
最大可分性:
样本点
在新空间中超平面上的投影是
,若所有样本点的投影能尽可能分开,则应该使得投影后样本点的方差
(已中心化)最大化。
最近重构性:
希望原样本点和基于投影重构的样本点的距离越小越好
基于两种思想得到的最优化的式子是一致的。
求解:
-
PCA算法流程
KPCA:
伪代码:
四、流形学习
用于从高维采样数据恢复低维流形结构,是一种非线性降维方法。
把数据从高维空间,保持一定几何拓扑关系,如测地距离/邻域线性重构关系,进行非线性降维,映射到低维嵌入空间。
Isomap:
局部线性嵌入LLE:
局部线性嵌入试图保持邻域内的线性关系,并使得该线性关系在降维后的空间中继续保持。
五、度量学习
文章介绍了KNN算法的工作原理,强调了距离度量和k值选择对结果的影响。接着讨论了维数灾难和如何通过PCA进行特征降维。PCA的目标是最大化方差和保持样本的最近重构性。此外,还提到了流形学习,包括Isomap和LLE,这些方法用于非线性降维。最后,文章提及了度量学习在优化距离度量方面的作用。

被折叠的 条评论
为什么被折叠?



