【数据挖掘】特征选择问题

特征工程的提取

特征工程的选择

(1)过滤式选择

特点:先选择特征,后训练模型(通常会指定需要特征的数目K);

tips:没什么思路时,优先选择“卡方检验”以及“互信息法”;

方差选择法

思路:自变量方差越大,反映的信息越大;

相关系数法

思路:如果特征和标签相关性较大,认为特征更为有效;
适用于:因变量为“连续”,“0-1型”

特征因变量方法
连续连续pearson相关系数,spearman秩相关系数,kendall相关系数
连续离散离散转二值,计算相关系数,如果是多值,计算多个相关系数平均
离散连续同上
离散离散jarcard距离

卡方检验

适用于:
自变量:分类变量
因变量:分类变量

补充:卡方检验常用来
a:两分类变量是否两两独立;
b:检验某连续变量会否满足某指定分布;
c:检验某分类变量各类出现概率是否等于指定概率;

互信息法

适用于:任意自变量 任意因变量

互信息(信息增益):联合分布中两信息纠缠程度(互相影响那部分的信息量)
相互独立者互信息为0
互信息越大,两者关系越强

信息熵、交叉熵、KL散度、联合熵、条件熵

(2)包裹式选择

特点:以训练模型的结果优劣,评估特征选择是否恰当

tips:常用“递归消除特征法RFE”,基学习器可以选择支持向量机SVM

理论:搜索策略+评估策略(模型结果:精度,复杂度等为评估标准),即不断迭代产生特征子集,并评价

搜索策略:

完全搜索

随机搜索

LVW算法,模拟退火算法,粒子群,遗传算法

启发式搜索

前向贪心算法(爬山法),后向贪心算法,逐步回归法

(3)嵌入式选择

特点:特征选取和模型的训练同时完成
tips:(1)基于惩罚项的特征选择基学习器通常选择逻辑回归LR,配合L1或L2正则化项;
(2)基于树的基本为决策树相关的基学习器;
注意:可以得到特征系数coef(基于惩罚项)或者得到特征重要度(基于树)的算法才可以作为嵌入式的基学习器!!

方法:

基于惩罚项的特征选择法

(1)避免过拟合的方法(减少特征、正则化);
(2)L1范式正则化(LASSO) vs L2范式正则化(岭回归);
(3)L1正则化更易获得稀疏解(稀疏解意味着参数更少,特征更少,模型更为简单);

基于树模型的特征选择法

如GBDT算法,特征j全局重要程度通过特征j在单棵树中的重要程度平均值衡量
除了GBDT,普通决策树,随机森林都可以进行特征选择

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值