机器学习基础(四):特征选择与稀疏学习

4、特征选择与稀疏学习

对一个学习任务来说,给定属性集,其中有些属性可能很关键、很有用,另一些则可能没什么用。将属性称为特征feature,则对当前学习任务有用的属性称为相关特征relevant feature,没什么用的属性称为无关特征feature selection(有一类特征称为冗余特征redundant feature,所包含的信息能从其他特征中推演出来,它很多时候不起作用,但也有时候可恰好对应完成学习任务所需的中间概念,是有益的)

→获得数据后通常先进行特征选择(数据预处理过程),此后再训练学习器

4.1如何选取一个包含所有重要信息的特征子集

①子集搜索subset search问题(仅考虑了使得本轮选定集最优,是贪心的)

1)前向搜索forward:给定特征集合{a1,a2,…,ad},将每个特征看做一个候选子集,对这d个候选子集进行评价,选出一个最优子集(比如{a2}),将{a2}作为第一轮的选定集;然后,在上一轮的选定集中加入一个特征,构成包含两个特征的候选子集,寻找最优(且优于{a2})(如{a2,a4}),将{a2,a4}作为第二轮的选定集;……若在第k+1轮时无比上一轮选定集更优的特征子集,则将上一轮选定的k特征集合作为特征选择结果
2)后向搜索backward:从完整的特征集合开始,每次尝试去掉一个无关特征
3)双向搜索bidirectional:前向后向结合,每一轮逐渐增加选定相关特征,同时减少无关特征

②子集评价subset evaluation问题
信息增益Gain(A)越大,特征子集A包含的有助于分类的信息越多。对每个候选特征子集,可基于训练数据集D来计算其信息增益,以此作为评价准则

→将上述子集搜索机制与子集评价机制相结合,即可得到特征选择方法(例如将前向搜索和信息熵结合,则与决策树算法非常相似)

4.2特征选择方法

4.2.1过滤式选择filter

先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关

例:Relief(一种著名的过滤式特征选择方法)(二分类问题)
设计了“相关统计量”来度量特征的重要性,分量值越大,对应属性的分类能力越强
是一个向量每个分量分别对应于一个初始特征,最终指定一个阈值γ然后选择比γ大的相关统计量分量对应的特征,或者指定想要选取的特征个数k然后选择相关统计量分量最大的k个特征。
→关键是确定相关统计量(相关统计量对应于属性j的分量):
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
实际上,只需在数据集的采样上估计相关统计量,Relief的时间开销随采样次数及原始特征数线性增长,是个运行效率很高的过滤式特征选择算法。

扩展变体Relief-F:能处理多分类问题
在这里插入图片描述

4.2.2包裹式选择wrapper

直接把最终将要使用的学习器的性能作为特征子集的评价准则,即目的是为给定学习器选择最有利于其性能的量身定做的特征子集(直接针对给定学习器进行优化,从最终学习器性能来看,比过滤式更好,但多次训练学习器使得计算开销大得多)

例:LVW(一个典型的包裹式特征选择方法)
在拉斯维加斯方法框架下使用随机策略进行子集搜索,并以最终分类器的误差作为特征子集评价准则
在这里插入图片描述
第8行是通过在数据集D上,使用交叉验证法来估计学习器的误差,注意这个误差是在仅考虑特征子集A’时得到的,即特征子集A’上的误差,若它比当前特征子集A上的误差更小,或误差相当但A’中包含的特征数更少,则将A’保留下来

4.2.3嵌入式选择embedding

将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动进行了特征选择

采用L1范数正则化:
在这里插入图片描述
不仅有助于降低过拟合风险,而且L1范数比L2范数正则化更易于获得稀疏(sparse)解,即求得的w有更少的非零分量

→意味着初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中,于是求解L1范数正则化的结果是得到了仅采用一部分初始特征的模型,即基于L1正则化的学习方法是一种嵌入式特征选择方法

4.3字典学习dictionary learning

将数据集D考虑成一个矩阵,每行对应于一个样本,每列对应于一个特征

字典学习:为普通稠密表达的样本找到合适的字典,将样本转化为合适的稀疏表示形式(稀疏编码),从而简化学习任务,降低模型复杂度
在这里插入图片描述
在这里插入图片描述

4.4压缩感知compressed sensing

关注的是如何利用信号本身所具有的稀疏性,从部分观测样本中恢复原信号,通常压缩感知分为感知测量(关注如何对原始信号进行处理以获得稀疏样本表示)和重构恢复(关注的是如何基于稀疏性从少量观测中恢复原信号,是精髓,通常压缩感知指的是这部分)两个阶段

未完待续,喜欢的朋友可以关注后续文章~

机器学习基础系列文章回顾:
机器学习基础(一):简介
机器学习基础(二):模型评估与选择
机器学习基础(三):决策树

参考书目:
周志华.《机器学习》

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值