西瓜书+实战+吴恩达机器学习(十九)特征选择(过滤式选择、包裹式选择)

本文介绍了特征选择在机器学习中的重要性,包括缓解维度灾难、降低学习任务难度。内容涵盖过滤式选择和包裹式选择两种方法。过滤式方法如Relief算法,通过相关统计量评估特征;包裹式选择则直接以学习器性能为评价标准,如LVW方法,但计算成本较高。
摘要由CSDN通过智能技术生成

如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~

0. 前言

特征选择是一个很重要的数据预处理过程:

  1. 选择出重要的特征可以缓解灾难维数问题
  2. 去除不相关特征可以降低学习任务的难度

特征选择可分为子集搜索和子集评价:

  1. 子集搜索:前向搜索(逐渐增加特征),后向搜索(逐渐减少特征)
  2. 子集评价:可采用信息增益对子集进行评价

1. 过滤式选择

过滤式方法先对数据进行特征选择,然后再训练分类器。

Relief(Relevant Features)是著名的过滤式特征选择方法。该方法假设特征子集的重要性是由子集中的每个特征所对应的相关统计量分量之和所决定的。所以只需要选择前 k k k个大的相关统计量对应的特征,或者大于某个阈值的相关统计量对应的特征即可。

Relief先在 x i x_i xi的同类样本中寻找其最近邻 x i , n h x_{i,nh} xi,nh称为“猜中近邻”,再从 x i x_i xi个异类样本中寻找其最近邻 x i , n m x_{i,nm} xi,nm称为“猜错近邻”,属性 j j j的相关统计量定义为:
δ j = ∑ i − d i f f ( x i j , x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值