【数据挖掘】特征选择问题

最新推荐文章于 2023-05-15 13:45:23 发布

ykukey_csdn

最新推荐文章于 2023-05-15 13:45:23 发布

阅读量537

点赞数 1

分类专栏：数据挖掘技术文章标签：数据挖掘机器学习特征工程建模

本文链接：https://blog.csdn.net/ykukey_csdn/article/details/99295451

版权

技术同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

数据挖掘

2 篇文章 0 订阅

订阅专栏

特征工程建立

特征工程的提取
特征工程的选择

特征工程的提取

特征工程的选择

（1）过滤式选择

特点：先选择特征，后训练模型（通常会指定需要特征的数目K）；

tips：没什么思路时，优先选择“卡方检验”以及“互信息法”；

方差选择法

思路：自变量方差越大，反映的信息越大；

特征	因变量	方法
连续	连续	pearson相关系数，spearman秩相关系数，kendall相关系数
连续	离散	离散转二值，计算相关系数，如果是多值，计算多个相关系数平均
离散	连续	同上
离散	离散	jarcard距离

卡方检验

适用于：
自变量：分类变量
因变量：分类变量

补充：卡方检验常用来
a：两分类变量是否两两独立；
b：检验某连续变量会否满足某指定分布；
c：检验某分类变量各类出现概率是否等于指定概率；

互信息法

适用于：任意自变量任意因变量

互信息（信息增益）：联合分布中两信息纠缠程度（互相影响那部分的信息量）
相互独立者互信息为0
互信息越大，两者关系越强

信息熵、交叉熵、KL散度、联合熵、条件熵

（2）包裹式选择

特点：以训练模型的结果优劣，评估特征选择是否恰当

tips：常用“递归消除特征法RFE”，基学习器可以选择支持向量机SVM

理论：搜索策略+评估策略（模型结果：精度，复杂度等为评估标准），即不断迭代产生特征子集，并评价

搜索策略：

完全搜索

随机搜索

LVW算法，模拟退火算法，粒子群，遗传算法

启发式搜索

前向贪心算法（爬山法），后向贪心算法，逐步回归法

（3）嵌入式选择

特点：特征选取和模型的训练同时完成
tips：（1）基于惩罚项的特征选择基学习器通常选择逻辑回归LR，配合L1或L2正则化项；
（2）基于树的基本为决策树相关的基学习器；
注意：可以得到特征系数coef（基于惩罚项）或者得到特征重要度（基于树）的算法才可以作为嵌入式的基学习器！！

方法：

基于惩罚项的特征选择法

（1）避免过拟合的方法（减少特征、正则化）；
（2）L1范式正则化（LASSO） vs L2范式正则化（岭回归）；
（3）L1正则化更易获得稀疏解（稀疏解意味着参数更少，特征更少，模型更为简单）；

基于树模型的特征选择法

如GBDT算法，特征j全局重要程度通过特征j在单棵树中的重要程度平均值衡量
除了GBDT，普通决策树，随机森林都可以进行特征选择