2020-09-21

xiaobaizhiyangsen

于 2020-09-21 21:49:16 发布

阅读量78

点赞数

本文链接：https://blog.csdn.net/xiaobaizhiyangsen/article/details/108720042

版权

导入用到的包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
from tqdm import tqdm
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.preprocessing import MinMaxScaler
import xgboost as xgb
import lightgbm as lgb
from catboost import CatBoostRegressor
import warnings
from sklearn.model_selection import StratifiedKFold, KFold
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, log_loss
warnings.filterwarnings(‘ignore’)
data_train =pd.read_csv(’…/train.csv’)
data_test_a = pd.read_csv(’…/testA.csv’)
数据EDA部分我们已经对数据的大概和某些特征分布有了了解，数据预处理部分一般我们要处理一些EDA阶段分析出来的问题，这里介绍了数据缺失值的填充，时间格式特征的转化处理，某些对象类别特征的处理。
首先我们查找出数据中的对象特征和数值特征

numerical_fea = list(data_train.select_dtypes(exclude=[‘object’]).columns)
category_fea = list(filter(lambda x: x not in numerical_fea,list(data_train.columns)))
label = ‘isDefault’
numerical_fea.remove(label)

在比赛中数据预处理是必不可少的一部分，对于缺失值的填充往往会影响比赛的结果，在比赛中不妨尝试多种填充然后比较结果选择结果最优的一种；比赛数据相比真实场景的数据相对要“干净”一些，但是还是会有一定的“脏”数据存在，清洗一些异常值往往会获得意想不到的效果
缺失值填充
把所有缺失值替换为指定的值0

data_train = data_train.fillna(0)

向用缺失值上面的值替换缺失值

data_train = data_train.fillna(axis=0,method=‘ffill’)

纵向用缺失值下面的值替换缺失值,且设置最多只填充两个连续的缺失值

data_train = data_train.fillna(axis=0,method=‘bfill’,limit=2)

类别特征的提取

部分类别特征

cate_features = [‘grade’, ‘subGrade’, ‘employmentTitle’, ‘homeOwnership’, ‘verificationStatus’, ‘purpose’, ‘postCode’, ‘regionCode’,
‘applicationType’, ‘initialListStatus’, ‘title’, ‘policyCode’]
for f in cate_features:
print(f, ‘类型数：’, data[f].nunique())

xiaobaizhiyangsen

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2020-09-21

导入用到的包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimefrom tqdm import tqdmfrom sklearn.preprocessing import LabelEncoderfrom sklearn.feature_selection import SelectKBestfrom sklearn.feature_
复制链接

扫一扫