降维
1.k近邻学习
概念:k近邻学习是一种常用的监督学习方法
工作机制:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个邻居的信息进行预测
懒惰学习:在训练阶段仅仅把样本保存起来,训练事件开销为0
急促学习:在训练阶段就对样本进行学习处理的方法
维数灾难:在高维情况下出现数据样本稀疏、距离计算灾难等问题
降维就是缓解维数灾难的一种重要方法
2.主成分分析
主成分分析(PCA)是最常用的一种降维方法
核心思想:将n维特征映射到m维上(m<n),这m维是全新的正交特征,称为主成分,这m维的特征是重新构造出来的,不是简单的从n维特征中减去n-m维特征(数据沿最大方向投影)
度量学习
概念:直接学习出一个合适的距离度量
作用:对于多个类别的数据,将相同类别的样本距离拉近,将不同类别的样本距离拉远,形成一个对样本相似度的合理度量