1.特征选择
对于一个学习任务,给定属性集,其中有些属性对我们的学习是有用的,而有些则是没有用的,这些属性称为“特征”,有用的特征称为“相关特征”,没用的特征称为“无关特征”,从特征集合中选取出相关特征称为“特征选择”。常见的特征选择方法有三类:过滤式、包裹式、嵌入式。
2.过滤式选择
过滤式方法是先用特征选择过程对初始特征进行选择,再用过滤后的特征来训练模型。
Relief特征选择方法是设计了“相关统计量”来度量特征的重要性。该统计量是一个向量,其每个分量分别对应一个初始特征,而特征子集的重要性则是由子集每个特征所对应的相关统计量分量之和决定的。于是,最终可以通过指定一个阈值t,然后选择比t大的相关统计量分量对应的特征即可,也可以指定选取特征的个数k,然后选择相关统计量分量最大的k个特征。
3.包裹式选择zuow
包裹式特征选择是直接把最终将要使用的学习器的性能作为特征子集的评价标准,包裹式特征选择比过滤式特征选择更好。LVW是一个典型的包裹式特征选择方法。
4.嵌入式选择与L1正则化
嵌入式选择是将特征选择过程与学习器训练过程融为一体,两者再统一个优化过程中完成。
为了解决过拟合问题,引入了正则化项.L1和L2范数正则化都有助于降低过拟合风险,L1还可以获得稀疏解。
5.稀疏表示与字典学习
将数据集D看出一个矩阵,每一行对应一个样本,每列对应一个特征。特征选择所考虑的问题是特征具有“稀疏性”,即通过特征选择去除与当前学习任务无关的列,学习器训练过程只需要再较小的矩阵上进行。
字典学习是为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表示形式。
6压缩感知
压缩感知关注的是如何利用信号本身所具有的稀疏性,从部分观测样本中恢复原信号。通常认为,压缩感知分为“感知测量”和“重构恢复”。“感知测量”关注如何对原信号进行处理以获得稀疏样本表示,这方面的内容设计FT,wavelet,字典学习和稀疏编码等,“重构恢复”关注的是如何基于稀疏性从少量观测中恢复原信号。
所有内容来自周志华《机器学习》