金融风控训练营-Task03特征工程学习笔记

最新推荐文章于 2024-09-11 17:24:47 发布

柒彩黑色的米

最新推荐文章于 2024-09-11 17:24:47 发布

阅读量138

点赞数

本文链接：https://blog.csdn.net/weixin_49247305/article/details/116239121

版权

1.数据预处理

1.1数据缺失值的填充（NaN 指Not a number）

用缺失值下面的值替换缺失值,且设置最多只填充两个连续的缺失值

data_train = data_train.fillna(axis=0,method='bfill',limit=2)
可以用“Unknown"或其他文本替换NaN

如： reviews.TAIL_NUMBER.fillna("Unknown",inplace=True)

1.2时间格式特征的转化出路

1.3对象类型特征转换为数值

数字编码，划分优先级

get_dummies

2.异常值处理

2.1检验异常的方法：

均方差：在统计学中，如果一个数据分布近似正态，那么大约 68% 的数据值会在均值的一个标准差范围内，大约 95% 会在两个标准差范围内，大约 99.7% 会在三个标准差范围内。
箱型图：通过四分位数形成的图形化描述。高于上触须或低于下触须的数据点都可以认为是离群点或异常值

2.2一些函数的解释：

3.数据分箱

3.1特征分箱的目的：降低变量复杂性，减少变量对模型的影响

3.2分箱的基本原则：

3.3固定宽度分箱：当数值横跨多个数量级时，最好按照10的幂（或任何常数的幂）进行分组

3.4分位数分箱：qcut（）函数基于样本分位数进行分箱

3.5卡方分箱：卡方检验指拟合优度检验和独立性分析。如果两个相邻的区间具有非常类似的类分布，那么这两个区间可以合并。否则，它们应该分开。低卡方值表明它们具有相似的类分布。

4.特征交互

如果线性模型中包含有交互特征对，那它的训练时间和评分时间就会从 O(n) 增加到 O(n2)，其中 n 是单一特征的数量。

5.特征编码

labelEncode，将离散型的数据转换成0到n-1之间的数，n可以认为是某个特征的所有不同取值的个数

逻辑回归等模型要单独增加的特征工程

逻辑回归是什么：逻辑回归的目的，是使训练数据的标签值和预测出来的值之间误差最小化

6.特征选择-得到一个简约模型，减少模型评分时间

6.1特征选择的方法

Filter(基于特征间的关系进行筛选）

方差选择法：先要计算各个特征的方差，然后根据设定的阈值，选择方差大于阈值的特征
相关系数法（pearson 相关系数）：该方法衡量的是变量之间的线性相关性。结果的取值区间为 [-1，1] ， -1 表示完全的负相关， +1表示完全的正相关，0 表示没有线性相关。
卡方检验：用于检验自变量对因变量的相关性。假设自变量有N种取值，因变量有M种取值，考虑自变量等于i且因变量等于j的样本频数的观察值与期望的差距。其统计量如下： χ2=∑(A−T)2T，其中A为实际值，T为理论值
互信息法：评价自变量对因变量的相关性

Wrapper （RFE）