这篇笔记,是一个大杂烩,涉及很多概念,主要是机器学习第10章和第11章的学习笔记。
##1.降维
降维,主要是用于解决维数灾难,它也被称为维数约简,即通过某种数学变换将原始高维属性空间转变为一个低维的子空间。
@@1.为啥要降维?
主要原因是高维的数据,有时并不能高效合理的解决我们的问题,也不利于学习。
@@2.降维的方法:
&&1.mds 多维缩放 (经典的降维方法)
&&2.pca 主成分分析
&&3.kpca 核化线性降维 (核主成分分析)
局部保存投影LPP,是基于LE的线性降维方法。
&&4.流形学习
常见的流行学习方法:isomap,LLE,拉普拉斯特征映射,局部切空间对齐等。
##2.度量学习
距离度量是度量学习的基本动机,它实际上就是寻找一个合适的空间中的,合适距离度量。
主要概念:平方欧式距离,马氏距离,NCA近邻成分分析
也出现了,全局度量学习方法和局部度量学习方法。
##3.特征选择
在学习任务中有用的特征,被称为相关特征,无用的特征,被称为无关特征,从给定的特征结合中选择出相关特征子集的过程,就是特征选择。
@@1.特征选择的好处
&&1.可以减少维度灾难
&&2、可以降低学习任务的难度
@@2.特征选择的两个关键环节
&&1.子集搜索环节:前向搜索,后向搜索,双向搜索。
&&2.子集评价环节:信息熵作为评价准则。
@@3.特性选择的三大类方法
&&1.过滤式选择
对初始化特征进行先过滤,然后用过滤后的特征进行,训练学习。
relief 是著名的过滤式特性选择方法。主要用于二分类问题,Relief-F 可用于多分类问题。
&&2.包裹式选择
对其性能和学习任务,对学习器,进行量身定做特征子集。
LVW ,lvw它在拉斯加斯方法框架下使用随机策略来进行子集搜索,并以最终分类器的误差为特征子集评价准则。
&&3.嵌入式选择
嵌入式特征选择是将 特征选择过程与学习器 训练过程融合为一体,两者在同一优化过程中完成,即在学习器训练过程中自动进行特征选择。
PGD 近端梯度下降,近端梯度下降,能使LASSO和其他基于L1范数最小化的方法得以快速求解。
##4.稀疏学习
稀疏编码===》 重于稀疏表达过程。
字典学习===》 更重于学得字典过程,两者不可分,相互包含
压缩感知:反原部分丢失的信息。 最好的比喻是,模型信号和数字信号的相互转换。
主要由两个重要的阶段:
&&1.感知测量 原信号转换为 稀疏样本。
&&2.重构恢复,将稀疏样本还原成原信号。