数据挖掘实战之金融风控第二课:特征工程

1、学习目标

学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法

学习特征交互、编码、选择的相应方法

2、比赛数据相比真实场景的数据相对要“干净”一些,但是还是会有一定的“脏”数据存在,清洗一些异常值往往会获得意想不到的效果。

常用方法:

2.1缺失值填充:一般填为0,

2.2针对string特征,转化为数值特征或者时间特征。

2.3类别特征,可以labelencode

2.4异常值处理:当你发现异常值后,一定要先分清是什么原因导致的异常值,然后再考虑如何处理。要分析规律,如果实在分析不出规律可以删掉。

异常值检验方法:均方差、箱型图

2.5:数据分桶,分箱:征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。

连续值离散化,将多状态的离散变量合并成少状态

常用方法:固定宽度分箱、分位数分箱、卡方分箱及其他分箱方法

3、特征交叉:计算ctr、 mean 、 std、count等

4、特征编码:labelencode、归一化等

5、特征选择:

  • 1 Filter
    • 方差选择法
    • 相关系数法(pearson 相关系数)
    • 卡方检验
    • 互信息法
  • 2 Wrapper (RFE)
    • 递归特征消除法
  • 3 Embedded
    • 基于惩罚项的特征选择法
    • 基于树模型的特征选择

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值