特征工程——特征衍生

难点
技术复杂、资料混乱、没有现成第三方库

特征衍生方法

单变量特征衍生——一个变量放进去衍生多个特征
双变量特征衍生——二组合生多
关键特征衍生——文本/时序
多变量特征衍生——三个及以上特征进行组合

单变量特征衍生

数据冲编码特征衍生

原特征与衍生特征都可以带入特征工程

连续变量:
标准化
离散化

离散变量:
自然数编码/字典编码(非数值变数值)
duress编码/哑变量变换

高阶多项式特征衍生

求二次方、三次方等

特征衍生准则
  1. 分类变量优先独热编码 | 连续变量优先数据归一化
  2. 连续变量较多时考虑聚类分箱;数据量大考虑minibatch
  3. 不建议对单变量使用多项式衍生,带有交叉项的多项式衍生往往效果更好

双变量特征衍生

方法:

  1. 四则运算
  2. 交叉组合
  3. 分组统计
  4. 多项式
四则预算

选两列进行加减乘除

运用场景:
创建业务补充字段
数据信息补充
多次衍生的到特殊字段

多项式特征衍生

效果好,不复杂,含交叉项x1*x2等

注意事项
优先两个连续型变量
选取重要的特征进行多项式衍生,强化重要特征的表现形式
往往衍生3阶左右,配合归一化处理雄安出数值绝对值爆炸或衰减所造成的影响

PolynomialFeatures:
interaction_only默认为false,true表示只创建交叉项
include_bias默认为true即考虑零次方

第一个特征项数依次递减,第二个特征一次递增

交叉组合

不同分类变量不同取值的组合
仅适用于取值较少的分类变量之间进行

分组统计

对特征a根据特征b不同的特征进行分组统计,求统计量

注意事项:
特征a可以时离散也可以是连续,特征b必须是离散且最好取值较多的离散(或取值固定的连续)
统计方法不一定锁死,可以交叉使用,连续性统计众数离散型统计均值

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值