金融风控task3 特征工程

最新推荐文章于 2024-02-08 21:46:49 发布

布丁咩咩

最新推荐文章于 2024-02-08 21:46:49 发布

阅读量115

点赞数

分类专栏：金融风控

本文链接：https://blog.csdn.net/zcy0108/article/details/108718414

版权

金融风控专栏收录该内容

4 篇文章 1 订阅

订阅专栏

首先对特征工程部分做一个大体的了解，包含以下几个部分：
数据预处理

缺失值的填充
时间格式处理
对象类型特征转换到数值

异常值处理

基于3sigema原则
基于箱型图

数据分箱

固定宽度分箱
分位数分箱
离散数值型数据分箱
连续数值型数据分箱

特征交互

特征和特征之间组合
特征和特征之间衍生
其他特征衍生的尝试

特征编码

one-hot编码
label-encode编码

特征选择

1 Filter
2 Wrapper（RFE）
3 Embedded

代码示例

导入包并读取数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
from tqdm import tqdm
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.preprocessing import MinMaxScaler
import xgboost as xgb
import lightgbm as lgb
from catboost import CatBoostRegressor
import warnings
from sklearn.model_selection import StratifiedKFold, KFold
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, log_loss
warnings.filterwarnings('ignore')

data_train =pd.read_csv('../train.csv')
data_test_a = pd.read_csv('../testA.csv')

特征预处理

注：数据EDA部分我们已经对数据的大概和某些特征分布有了了解，数据预处理部分一般我们要处理一些EDA阶段分析出来的问题，这里介绍了数据缺失值的填充，时间格式特征的转化处理，某些对象类别特征的处理。
首先我们查找出数据中的对象特征和数值特征

numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)
category_fea = list(filter(lambda x: x not in numerical_fea,list(data_train.columns)))
label = 'isDefault'
numerical_fea.remove(label)

在这里插入图片描述
此处高能

#一个一个的数据显示是否有空值
data_train.isnull()
#只要有一列有空值就返回true，否则返回false
data_train.isnull().any()
#每一列的空值的个数
data_train.isnull().sum()
#含有空值的列数
data.train_isnull().any().sum()

#按照中位数填充数值型特征
data_train[numerical_fea] = data_train[numerical_fea].fillna(data_train[numerical_fea].median())
data_test_a[numerical_fea] = data_test_a[numerical_fea].fillna(data_train[numerical_fea].median())
#按照众数填充类别型特征
data_train[category_fea] = data_train[category_fea].fillna(data_train[category_fea].mode())
data_test_a[category_fea] = data_test_a[category_fea].fillna(data_train[category_fea].mode())

时间格式处理

#转化成时间格式
for data in [data_train, data_test_a]:
    data['issueDate'] = pd.to_datetime(data['issueDate'],format='%Y-%m-%d')
    startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d')
    #构造时间特征
    data['issueDateDT'] = data['issueDate'].apply(lambda x: x-startdate).dt.days

对象类型特征转换为数值

def employmentLength_to_int(s):
    if pd.isnull(s):
        return s
    else:
        return np.int8(s.split()[0])
for data in [data_train, data_test_a]:
    data['employmentLength'].replace(to_replace='10+ years', value='10 years', inplace=True)
    data['employmentLength'].replace('< 1 year', '0 years', inplace=True)
    data['employmentLength'] = data['employmentLength'].apply(employmentLength_to_int)

data['employmentLength'].value_counts(dropna=False).sort_index()

#随机采样五个样本，如果设置相同的random_state=k，那么每次采样的结果相同
data_train['earliesCreditLine'].sample(5)

# 部分类别特征
cate_features = ['grade', 'subGrade', 'employmentTitle', 'homeOwnership', 'verificationStatus', 'purpose', 'postCode', 'regionCode', \
                'applicationType', 'initialListStatus', 'title', 'policyCode']
for f in cate_features:
   print(f, '类型数：', data[f].nunique())

在这里插入图片描述
像等级这种类别特征，是有优先级的可以labelencode或者自映射

for data in [data_train, data_test_a]:
    data['grade'] = data['grade'].map({'A':1,'B':2,'C':3,'D':4,'E':5,'F':6,'G':7})

# 类型数在2之上，又不是高维稀疏的,且纯分类特征
for data in [data_train, data_test_a]:
   data = pd.get_dummies(data, columns=['subGrade', 'homeOwnership', 'verificationStatus', 'purpose', 'regionCode'], drop_first=True)

异常值处理

在这里插入图片描述

检测异常的方法一：均方差

在统计学中，如果一个数据分布近似正态，那么大约 68% 的数据值会在均值的一个标准差范围内，大约 95% 会在两个标准差范围内，大约 99.7% 会在三个标准差范围内。
注：如果数据不是服从正态分布那不能这样用

def find_outliers_by_3segama(data,fea):
    data_std = np.std(data[fea])
    data_mean = np.mean(data[fea])
    outliers_cut_off = data_std * 3
    lower_rule = data_mean - outliers_cut_off
    upper_rule = data_mean + outliers_cut_off
    data[fea+'_outliers'] = data[fea].apply(lambda x:str('异常值') if x > upper_rule or x < lower_rule else '正常值')
    return data

data_train = data_train.copy()
for fea in numerical_fea:
    data_train = find_outliers_by_3segama(data_train,fea)
    print(data_train[fea+'_outliers'].value_counts())
    print(data_train.groupby(fea+'_outliers')['isDefault'].sum())
    print('*'*10)

在这里插入图片描述

数据分桶

在这里插入图片描述

布丁咩咩

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
金融风控task3 特征工程

首先对特征工程部分做一个大体的了解，包含以下几个部分：数据预处理缺失值的填充时间格式处理对象类型特征转换到数值异常值处理基于3sigema原则基于箱型图数据分箱固定宽度分箱分位数分箱离散数值型数据分箱连续数值型数据分箱特征交互特征和特征之间组合特征和特征之间衍生其他特征衍生的尝试特征编码one-hot编码label-encode编码特征选择1 Filter2 Wrapper（RFE）3 Embedded代码示例导入包并读取数据imp
复制链接

扫一扫

专栏目录