特征工程建立
特征工程的提取
特征工程的选择
(1)过滤式选择
特点:先选择特征,后训练模型(通常会指定需要特征的数目K);
tips:没什么思路时,优先选择“卡方检验”以及“互信息法”;
方差选择法
思路:自变量方差越大,反映的信息越大;
相关系数法
思路:如果特征和标签相关性较大,认为特征更为有效;
适用于:因变量为“连续”,“0-1型”
特征 | 因变量 | 方法 |
---|---|---|
连续 | 连续 | pearson相关系数,spearman秩相关系数,kendall相关系数 |
连续 | 离散 | 离散转二值,计算相关系数,如果是多值,计算多个相关系数平均 |
离散 | 连续 | 同上 |
离散 | 离散 | jarcard距离 |
卡方检验
适用于:
自变量:分类变量
因变量:分类变量
补充:卡方检验常用来
a:两分类变量是否两两独立;
b:检验某连续变量会否满足某指定分布;
c:检验某分类变量各类出现概率是否等于指定概率;
互信息法
适用于:任意自变量 任意因变量
互信息(信息增益):联合分布中两信息纠缠程度(互相影响那部分的信息量)
相互独立者互信息为0
互信息越大,两者关系越强
信息熵、交叉熵、KL散度、联合熵、条件熵
(2)包裹式选择
特点:以训练模型的结果优劣,评估特征选择是否恰当
tips:常用“递归消除特征法RFE”,基学习器可以选择支持向量机SVM
理论:搜索策略+评估策略(模型结果:精度,复杂度等为评估标准),即不断迭代产生特征子集,并评价
搜索策略:
完全搜索
随机搜索
LVW算法,模拟退火算法,粒子群,遗传算法
启发式搜索
前向贪心算法(爬山法),后向贪心算法,逐步回归法
(3)嵌入式选择
特点:特征选取和模型的训练同时完成
tips:(1)基于惩罚项的特征选择基学习器通常选择逻辑回归LR,配合L1或L2正则化项;
(2)基于树的基本为决策树相关的基学习器;
注意:可以得到特征系数coef(基于惩罚项)或者得到特征重要度(基于树)的算法才可以作为嵌入式的基学习器!!
方法:
基于惩罚项的特征选择法
(1)避免过拟合的方法(减少特征、正则化);
(2)L1范式正则化(LASSO) vs L2范式正则化(岭回归);
(3)L1正则化更易获得稀疏解(稀疏解意味着参数更少,特征更少,模型更为简单);
基于树模型的特征选择法
如GBDT算法,特征j全局重要程度通过特征j在单棵树中的重要程度平均值衡量
除了GBDT,普通决策树,随机森林都可以进行特征选择