特征工程之特征衍生

单变量特征衍生

解释:只需要带入单独一个变量进行组合
常用方法
数据重编码
  • 连续变量数据重编码
    .标准化:0-1标准化/z-score标准化
    .离散化:等距分箱 、等频分箱 、聚类分箱
  • 离散变量数据重编码
    .自然数编码、字典编码
    .独热编码
高阶多项式
  • 该列数据,二次方到高次方等

双变量特征衍生

1.要点:两两特征进行组合衍生

2.常用方法

(1)四则运算特征衍生
  • 根据对业务字段理解,取部分两字段,这些字段对多数为连续型字段进行四则运算。
(2)交叉组合
  • 交叉组合类似于逻辑判断条件的与或非的逻辑,数值型和类别型特征均适用。
(3)分组统计
  • 按照某一列(该列数值独立个数较多,才会分出更多不一样新列)数值进行分组,按分组后列求得对应的平均值,最大值,最小值,众数等。
  • 新生列和原分组列进行四则运算,再次生成新的列
  • 此外,分组后还有方差,标准差,偏度,个数,中位数,上下分位数等。
  • 统计特征衍生,二阶,三阶特征也是可以尝试。
  • 注:数据倾斜检验,均值减去中位数,或除以中位数,判定数据分布偏向。
(4)多项式
  • 不同两列乘以不同权重进行组合。
(5)统计演变

关键特征衍生

1.时许特征

  • 提取时间中年月日,时分秒,季度,星期,周几等。
  • 进一步创建每天的周期,凌晨,上午,下午,晚上等。

2.文本特征

多变量特征衍生

解释:和双变量衍生原理相似,只是结合三个以上变量进行特征衍生。
  • 注:只有在理解业务基础上,确定非常关键特征,才会进行多变量特征组合,避免组合后带来矩阵稀疏,此外,分组后组内数据量少,效果也不会太好。
  • 多变量四则运算组合。
  • 多变量交叉组合。
  • 多变量分组统计组合。
  • 多变量多项式衍生
常用方法
(1)四则运算
(2)交叉组合
(3)分组统计
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值