金融风控训练营Task02基础知识学习笔记——EDA探索性数据分析

最新推荐文章于 2022-12-16 16:40:00 发布

weixin_46085699

最新推荐文章于 2022-12-16 16:40:00 发布

阅读量256

点赞数

分类专栏：天池训练营文章标签：数据分析

原文链接：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.20850282.J_3678908510.20.f2984d57jbhxEl&postId=170949

版权

天池训练营专栏收录该内容

6 篇文章 1 订阅

订阅专栏

金融风控训练营Task02基础知识学习笔记——EDA探索性数据分析

一、学习知识点概要

学习如何对数据集整体概况进行分析，包括数据集的基本情况（缺失值，异常值）
学习了解变量间的相互关系、变量与预测值之间的存在关系

二、学习内容及问题与解答

1.读取文件的拓展知识：

pandas读取数据时相对路径载入报错时，尝试使用os.getcwd()查看当前工作目录。
TSV与CSV的区别：
- 从名称上即可知道，TSV是用制表符（Tab,’\t’）作为字段值的分隔符；CSV是用半角逗号（’,’）作为字段值的分隔符；
- Python对TSV文件的支持： Python的csv模块准确的讲应该叫做dsv模块，因为它实际上是支持范式的分隔符分隔值文件（DSV，delimiter-separated values）的。 delimiter参数值默认为半角逗号，即默认将被处理文件视为CSV。当delimiter=’\t’时，被处理文件就是TSV。
- 读取文件的部分（适用于文件特别大的场景）
  - 通过nrows参数，来设置读取文件的前多少行，nrows是一个大于等于0的整数。
  - 分块读取

#通过nrows参数，来设置读取文件的前多少行，nrows是一个大于等于0的整数。

data_train_sample = pd.read_csv("train.csv",nrows=5)
print('data_train_sample=',data_train_sample)

#分块读取

#设置chunksize参数，来控制每次迭代数据的大小
i = 0  # 控制输出
chunker = pd.read_csv("train.csv",chunksize=5)
for item in chunker:
    print(type(item))
    #<class 'pandas.core.frame.DataFrame'>
    print(len(item))
    i+=1
    if i >= 4:   # 由于数据量过大，限制输出4条就跳出循环
        break
    #5
    
print('chunker=',chunker)

2.总体了解：

①查看数据集的样本个数和原始特征维度

print(data_test_a.shape)
print(data_test_a.columns)

print(data_train.shape)
print(data_train.columns)

②通过info()来熟悉数据类型

print(data_train.info())

③总体粗略的查看数据集各个特征的一些基本统计量

import pandas as pd
data_train = pd.read_csv('train.csv')
data_test_a = pd.read_csv('testA.csv')


print(data_train.describe())

print(data_train.head(3).append(data_train.tail(3)))

3.查看数据集中特征缺失值、唯一值等

①查看缺失值

print(f'There are {data_train.isnull().any().sum()} columns in train dataset with missing values.')

②上面得到训练集有22列特征有缺失值，进一步查看缺失特征中缺失率大于50%的特征

have_null_fea_dict = (data_train.isnull().sum()/len(data_train)).to_dict()
fea_null_moreThanHalf = {}
for key,value in have_null_fea_dict.items():
    if value > 0.5:
        fea_null_moreThanHalf[key] = value
print(fea_null_moreThanHalf)

③具体查看缺失特征及缺失率

# nan可视化
missing = data_train.isnull().sum()/len(data_train)
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()

④查看训练集测试集中特征属性只有一值的特征

one_value_fea = [col for col in data_train.columns if data_train[col].nunique() <= 1]
print(one_value_fea)
one_value_fea_test = [col for col in data_test_a.columns if data_test_a[col].nunique() <= 1]
print(one_value_fea_test)

print(f'There are {len(one_value_fea)} columns in train dataset with one unique value.')
print(f'There are {len(one_value_fea_test)} columns in test dataset with one unique value.')

④查看特征的数值类型、对象类型分别有哪些

# 数值类型
numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)
print(numerical_fea)

# 对象类型
category_fea = list(filter(lambda x: x not in numerical_fea,list(data_train.columns)))
print(category_fea)

print(data_train.grade)

⑤过滤数值型类别特征，分出离散型和连续型数据

numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)
category_fea = list(filter(lambda x: x not in numerical_fea,list(data_train.columns)))

#过滤数值型类别特征
def get_numerical_serial_fea(data,feas):
    numerical_serial_fea = []
    numerical_noserial_fea = []
    for fea in feas:
        # Pandas nunique() 用于获取唯一值的统计次数。
        # 统计“fea”列中不同值的个数，不包括null值
        temp = data[fea].nunique()
        if temp <= 10:
            # 不同值的个数小于等于10，归为离散型数据
            numerical_noserial_fea.append(fea)
            continue
        # 不同值的个数大于10，归为连续型数据
        numerical_serial_fea.append(fea)
    return numerical_serial_fea,numerical_noserial_fea

numerical_serial_fea,numerical_noserial_fea = get_numerical_serial_fea(data_train,numerical_fea)


print(numerical_serial_fea)
print(numerical_noserial_fea)

⑥查看具体的离散型数据及其重复出现的次数

print(data_train['term'].value_counts())#离散型变量
print("===========================================")
print(data_train['homeOwnership'].value_counts())#离散型变量
print("===========================================")
print(data_train['verificationStatus'].value_counts())#离散型变量
print("===========================================")
print(data_train['initialListStatus'].value_counts())#离散型变量
print("===========================================")
print(data_train['applicationType'].value_counts())#离散型变量  
print("===========================================")
print(data_train['policyCode'].value_counts())#离散型变量，无用，全部一个值
print("===========================================")
print(data_train['n11'].value_counts())#离散型变量，相差悬殊，用不用再分析
print("===========================================")
print(data_train['n12'].value_counts())#离散型变量，相差悬殊，用不用再分析

⑦数值连续型变量分析

numerical_fea = list(data_train.select_dtypes(exclude=['object']).columns)
category_fea = list(filter(lambda x: x not in numerical_fea,list(data_train.columns)))

#过滤数值型类别特征
def get_numerical_serial_fea(data,feas):
    numerical_serial_fea = []
    numerical_noserial_fea = []
    for fea in feas:
        # Pandas nunique() 用于获取唯一值的统计次数。
        # 统计“fea”列中不同值的个数，不包括null值
        temp = data[fea].nunique()
        if temp <= 10:
            # 不同值的个数小于等于10，归为离散型数据
            numerical_noserial_fea.append(fea)
            continue
        # 不同值的个数大于10，归为连续型数据
        numerical_serial_fea.append(fea)
    return numerical_serial_fea,numerical_noserial_fea

numerical_serial_fea,numerical_noserial_fea = get_numerical_serial_fea(data_train,numerical_fea)


#每个数字特征的分布可视化
# 这里画图估计需要10-15分钟
f = pd.melt(data_train, value_vars=numerical_serial_fea)
g = sns.FacetGrid(f, col="variable",  col_wrap=2, sharex=False, sharey=False)
g = g.map(sns.distplot, "value")

#Ploting Transaction Amount Values Distribution
plt.figure(figsize=(16,12))
plt.suptitle('Transaction Values Distribution', fontsize=22)
plt.subplot(221)
sub_plot_1 = sns.distplot(data_train['loanAmnt'])
sub_plot_1.set_title("loanAmnt Distribuition", fontsize=18)
sub_plot_1.set_xlabel("")
sub_plot_1.set_ylabel("Probability", fontsize=15)

plt.subplot(222)
sub_plot_2 = sns.distplot(np.log(data_train['loanAmnt']))
sub_plot_2.set_title("loanAmnt (Log) Distribuition", fontsize=18)
sub_plot_2.set_xlabel("")
sub_plot_2.set_ylabel("Probability", fontsize=15)

print(data_train['grade'].value_counts())
print("=================================")
print(data_train['subGrade'].value_counts())
print("=================================")
print(data_train['employmentLength'].value_counts())
print("=================================")
print(data_train['issueDate'].value_counts())
print("=================================")
print(data_train['earliesCreditLine'].value_counts())
print("=================================")
print(data_train['isDefault'].value_counts())

4.变量分布可视化

①单一变量分布可视化

plt.figure(figsize=(8, 8))
sns.barplot(data_train["employmentLength"].value_counts(dropna=False)[:20],
            data_train["employmentLength"].value_counts(dropna=False).keys()[:20])
plt.show()

②根绝y值不同可视化x某个特征的分布

首先查看类别型变量在不同y值上的分布

train_loan_fr = data_train.loc[data_train['isDefault'] == 1]
train_loan_nofr = data_train.loc[data_train['isDefault'] == 0]

fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 8))
train_loan_fr.groupby('grade')['grade'].count().plot(kind='barh', ax=ax1, title='Count of grade fraud')
train_loan_nofr.groupby('grade')['grade'].count().plot(kind='barh', ax=ax2, title='Count of grade non-fraud')
train_loan_fr.groupby('employmentLength')['employmentLength'].count().plot(kind='barh', ax=ax3, title='Count of employmentLength fraud')
train_loan_nofr.groupby('employmentLength')['employmentLength'].count().plot(kind='barh', ax=ax4, title='Count of employmentLength non-fraud')
plt.show()

其次查看连续型变量在不同y值上的分布

fig, ((ax1, ax2)) = plt.subplots(1, 2, figsize=(15, 6))
data_train.loc[data_train['isDefault'] == 1] \
    ['loanAmnt'].apply(np.log) \
    .plot(kind='hist',
          bins=100,
          title='Log Loan Amt - Fraud',
          color='r',
          xlim=(-3, 10),
         ax= ax1)
data_train.loc[data_train['isDefault'] == 0] \
    ['loanAmnt'].apply(np.log) \
    .plot(kind='hist',
          bins=100,
          title='Log Loan Amt - Not Fraud',
          color='b',
          xlim=(-3, 10),
         ax=ax2)

total = len(data_train)
total_amt = data_train.groupby(['isDefault'])['loanAmnt'].sum().sum()
plt.figure(figsize=(12,5))
plt.subplot(121)##1代表行，2代表列，所以一共有2个图，1代表此时绘制第一个图。
plot_tr = sns.countplot(x='isDefault',data=data_train)#data_train‘isDefault’这个特征每种类别的数量**
plot_tr.set_title("Fraud Loan Distribution \n 0: good user | 1: bad user", fontsize=14)
plot_tr.set_xlabel("Is fraud by count", fontsize=16)
plot_tr.set_ylabel('Count', fontsize=16)
for p in plot_tr.patches:
    height = p.get_height()
    plot_tr.text(p.get_x()+p.get_width()/2.,
            height + 3,
            '{:1.2f}%'.format(height/total*100),
            ha="center", fontsize=15) 
    
percent_amt = (data_train.groupby(['isDefault'])['loanAmnt'].sum())
percent_amt = percent_amt.reset_index()
plt.subplot(122)
plot_tr_2 = sns.barplot(x='isDefault', y='loanAmnt',  dodge=True, data=percent_amt)
plot_tr_2.set_title("Total Amount in loanAmnt  \n 0: good user | 1: bad user", fontsize=14)
plot_tr_2.set_xlabel("Is fraud by percent", fontsize=16)
plot_tr_2.set_ylabel('Total Loan Amount Scalar', fontsize=16)
for p in plot_tr_2.patches:
    height = p.get_height()
    plot_tr_2.text(p.get_x()+p.get_width()/2.,
            height + 3,
            '{:1.2f}%'.format(height/total_amt * 100),
            ha="center", fontsize=15)

5.时间格式数据处理及查看

#转化成时间格式  issueDateDT特征表示数据日期离数据集中日期最早的日期（2007-06-01）的天数
data_train['issueDate'] = pd.to_datetime(data_train['issueDate'],format='%Y-%m-%d')
startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d')
data_train['issueDateDT'] = data_train['issueDate'].apply(lambda x: x-startdate).dt.days
    
#转化成时间格式
data_test_a['issueDate'] = pd.to_datetime(data_train['issueDate'],format='%Y-%m-%d')
startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d')
data_test_a['issueDateDT'] = data_test_a['issueDate'].apply(lambda x: x-startdate).dt.days

plt.hist(data_train['issueDateDT'], label='train');
plt.hist(data_test_a['issueDateDT'], label='test');
plt.legend();
plt.title('Distribution of issueDateDT dates');
#train 和 test issueDateDT 日期有重叠 所以使用基于时间的分割进行验证是不明智的

6.掌握透视图可以让我们更好的了解数据

#转化成时间格式  issueDateDT特征表示数据日期离数据集中日期最早的日期（2007-06-01）的天数
data_train['issueDate'] = pd.to_datetime(data_train['issueDate'],format='%Y-%m-%d')
startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d')
data_train['issueDateDT'] = data_train['issueDate'].apply(lambda x: x-startdate).dt.days
    
#转化成时间格式
data_test_a['issueDate'] = pd.to_datetime(data_train['issueDate'],format='%Y-%m-%d')
startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d')
data_test_a['issueDateDT'] = data_test_a['issueDate'].apply(lambda x: x-startdate).dt.days

plt.hist(data_train['issueDateDT'], label='train');
plt.hist(data_test_a['issueDateDT'], label='test');
plt.legend();
plt.title('Distribution of issueDateDT dates');
#train 和 test issueDateDT 日期有重叠 所以使用基于时间的分割进行验证是不明智的


#透视图 索引可以有多个，“columns（列）”是可选的，聚合函数aggfunc最后是被应用到了变量“values”中你所列举的项目上。
pivot = pd.pivot_table(data_train, index=['grade'], columns=['issueDateDT'], values=['loanAmnt'], aggfunc=np.sum)
print(pivot)

7.用pandas_profiling生成数据报告

import pandas_profiling
pfr = pandas_profiling.ProfileReport(data_train)
pfr.to_file("./example.html")

三、总结与反思

数据探索性分析是我们初步了解数据，熟悉数据为特征工程做准备的阶段，甚至很多时候EDA阶段提取出来的特征可以直接当作规则来用。可见EDA的重要性，这个阶段的主要工作还是借助于各个简单的统计量来对数据整体的了解，分析各个类型变量相互之间的关系，以及用合适的图形可视化出来直观观察。
想要真正理解并做好以上操作，还需要另外补充关于python可视化的知识。

weixin_46085699

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
金融风控训练营Task02基础知识学习笔记——EDA探索性数据分析

金融风控训练营Task01基础知识学习笔记一、学习知识点概要二、学习内容及问题与解答1.读取文件的拓展知识：2.Python函数：一、学习知识点概要二、学习内容及问题与解答1.读取文件的拓展知识：pandas读取数据时相对路径载入报错时，尝试使用os.getcwd()查看当前工作目录。TSV与CSV的区别：从名称上即可知道，TSV是用制表符（Tab,’\t’）作为字段值的分隔符；CSV是用半角逗号（’,’）作为字段值的分隔符；Python对TSV文件的支持： Python的csv模块准确的
复制链接

扫一扫