竞赛-贷款违约预测-03 特征工程（纯理论）

最新推荐文章于 2024-04-10 23:58:43 发布

z.d.k

最新推荐文章于 2024-04-10 23:58:43 发布

阅读量2.1k

点赞数

分类专栏：竞赛

本文链接：https://blog.csdn.net/yiqi1943/article/details/108721477

版权

竞赛专栏收录该内容

4 篇文章 1 订阅

订阅专栏

1. 目标

1.1 学习特征预处理、缺失值、异常值处理、数据分桶等特征处理方法
1.2 学习特征交互、编码、选择的相应方法
1.3 完成相应学习打卡任务，两个选做的作业不做强制性要求，供学有余力同学自己探索

2. 内容

2.1 数据预处理

	2.1.1 缺失值的填充
	2.1.2 时间格式处理
	2.1.3 对象类型特征转换到数值

2.2 异常值处理

2.2.1基于3segama原则
2.2.2 基于箱型图

2.3 数据分箱

2.3.1 固定宽度分箱
2.3.2 分位数分箱
	- 离散数值型数据分箱
	- 连续数值型数据分箱
	- 卡方分箱(选做作业)

2.4 特征交互

2.4.1 特征和特征之间组合
2.4.2 特征和特征之间衍生
2.4.3 其他特征衍生的尝试(选做作业)

2.5 特征编码

2.5.1 one-hot编码
2.5.2 label-encode编码

2.6 特征选择

2.6.1 1 Filter
2.6.2 2 Wrapper (RFE)
2.6.3 3 Embedded

3. 代码示例

3.1 读取数据

3.2 特征预处理

3.2.1 缺失值填充
3.2.2 时间格式处理
3.2.3 对象类型特征转换到数值
3.2.4 类别特征处理

3.3 异常值处理

3.3.1 检测异常的方法值一：均方差MSE
3.3.2 检测异常的方法值一：箱型图

3.4 数据分桶

特征分箱的目的:
从模型效果上来看，特征分箱主要是为了降低变量的复杂性，减少变量噪音对模型的影响，提高自变量
和因变量的相关度。从而使模型更加稳定。
数据分桶的对象:
- 将连续变量离散化
- 将多状态的离散变量合并成少状态
分箱的原因:
数据的特征内的值跨度可能比较大，对有监督和无监督中如k-均值聚类它使用欧氏距离作为相似度函数来测量数据点之间的相似度。都会造成大吃小的影响，其中一种解决方法是对计数值进行区间量化即数据分桶也叫做数据分箱，然后使用量化后的结果。
分箱的优点
- 处理缺失值:当数据源可能存在缺失值，此时可以把null单独作为一个分箱
- 处理异常值:当数据中存在离群点时，可以把其通过分箱离散化处理，从而提高变量的鲁棒性(抗干扰
  能力)。例如，age若出现200这种异常值，可分入“age > 60”这个分箱里，排除影响。
- 业务解释性:我们习惯于线性判断变量的作用，当x越来越大，y就越来越大。但实际x与y之间经常存在
  着非线性关系，此时可经过WOE变换
分箱方法：
1. 固定宽度分享
  当数值横跨多个数量级时，最好按照 10 的幂（或任何常数的幂）来进行分组：0~9、10~99、100~999、1000~9999，等等。固定宽度分箱非常容易计算，但如果计数值中有比较大的缺口，就会产生很多没有任何数据的空箱子。
2. 分位数分箱

data['loanAmnt_bin3'] = pd.qcut(data['loanAmnt'], 10, labels=False)
#文档
#pandas.qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')

3. 卡方分箱及其他分箱方法的尝试

3.5 特征交互

交互特征的构造非常简单，使用起来却代价不菲。如果线性模型中包含有交互特征对，那它的训练时间和评分时间就会从 O(n) 增加到 O( $n^2$ )，其中 n 是单一特征的数量。

3.6 特征编码

labelEncode 直接放入树模型中

逻辑回归等模型要单独增加的特征工程

- 特征归一化，去除相关性高的特征
- 归一化的目的是让训练过程更好更快的收敛，避免特征大吃小的问题
- 去除相关性是增加模型的可解释性，加快预测过程

3.7 特征选择

特征选择技术可以精简掉无用的特征，以降低最终模型的复杂性，它的最终目的是得到一个简约模型，在不降低预测准确率或对预测准确率影响不大的情况下提高计算速度。特征选择不是为了减少训练时间(实际上，一些技术会增加总体训练时间)，而是为了减少模型评分时间。

特征选择的方法：

1 Fileter
1. 方差选择法
2. 相关系数法（Pearson相关系数）
3. 卡方检验
4. 互信息法
2 Wrapper（RFE）
1. 递归特征消除法
Embedded
1. 基于惩罚项的特征选择法
2. 基于树模型的特征选择

3.7.1 Filter

基于特征见的关系进行筛选
1. 方法选择法
2. 相关系数法
3. 卡方检验
4. 互信息法

3.7.2 Wrapper（Recursive feature elimination RFE）

递归特征消除法递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，消除若干权值系数的特征，再基于新的特征集进行下一轮训练。在feature_selection库的RFE类可以用于选择特征

3.7.3 Embedded

基于惩罚项的特征选择法使用带惩罚项的基模型，除了筛选出特征外，同时也进行了降维。在 feature_selection库的SelectFromModel类结合逻辑回归模型可以用于选择特征
基于树模型的特征选择树模型中GBDT也可用来作为基模型进行特征选择。在feature_selection库的 SelectFromModel类结合GBDT模型可以用于选择特征