特征选择之Relief算法与Relief-F算法

将月藏进诗尾

已于 2023-04-21 16:39:21 修改

阅读量3k

点赞数 1

分类专栏：机器学习算法文章标签：算法机器学习 python 人工智能

于 2023-04-16 21:58:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44842318/article/details/130189061

版权

算法同时被 2 个专栏收录

2 篇文章

订阅专栏

1 篇文章

订阅专栏

特征选择之Relief算法与Relief-F算法

一、背景介绍
二、Relief算法
三、Relief-F算法
参考资料

一、背景介绍

Relief算法是由Kira提出的一种经典的过滤式特征选择算法，其通过相关统计量度量特征的重要程度，只适用于二分类问题。相应的，针对多分类问题，Kononeill对Relief算法进行了改进，得到了适用于多分类问题的Relief-F算法。

二、Relief算法

Relief算法步骤如下：

给定训练样本集{(x₁,y₁),(x₂,y₂),…(x_m,y_m)}，
对于每个样本x_i：
（1）先在其同类样本中寻找最近邻x_i,nh，称为“猜中近邻”（near-hit）;
（2）再在其异类样本中寻找最近邻x_i,nm，称为“猜错近邻”（near-miss）;
（3）计算相关统计量对应于属性j的分量：

其中diff(x^j_a,x^j_b)取决于属性j的类型：
①若属性j为离散型，则 x^j_a=x^j_b 时，diff(x^j_a,x^j_b)=0，否则为1；
②若属性j为连续型，则 diff(x^j_a,x^j_b)=|x^j_a-x^j_b|，且x^j_a,x^j_b已规范化到[0,1]区间。
（4）将基于不同样本得到的估计结果取均值。

有益特征和有害特征的区别
有益特征：diff(x^j_i,x^j_i,nh)<diff(x^j_i,x^j_i,nm)
有害特征：diff(x^j_i,x^j_i,nh)>diff(x^j_i,x^j_i,nm)

Relief算法的python实现见https://www.jianshu.com/p/679232633a1e

三、Relief-F算法

Relief-F算法对δ^j的计算方式进行了扩展。

Relief-F算法步骤如下：

假定数据集D中样本共有|Y|个类别，
其中样本x_i属于第k类：
（1）先在第k类样本中寻找最近邻x_i,nh，称为“猜中近邻”；
（2）再在第k类样本外寻找最近邻x_i,nm，称为“猜错近邻”；
（3）计算相关统计量对应于属性j的分量：

其中，p_l为第l类样本在数据集D中所占比例。
（4）将基于不同样本得到的估计结果取均值。

Relief-F算法的python实现见单标签Relief-F算法和多标签Relief-F算法

参考资料

1、周志华-机器学习-清华大学出版社
2、特征选择算法-Relief（转）
3、Relief算法python实现

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

将月藏进诗尾 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。