金融风控训练营 Task2 数据分析 学习笔记
本学习笔记为阿里云天池龙珠计划金融风控训练营的学习内容,学习链接为:https://tianchi.aliyun.com/specials/activity/promotion/aicampfr
一、学习知识点概要
文章目录
二、学习内容
1. 目的
-
EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.
-
了解变量间的相互关系、变量与预测值之间的存在关系。
-
为特征工程做准备
2. 内容介绍
- 数据总体了解:
- 读取数据集并了解数据集大小,原始特征维度;
- 通过info熟悉数据类型;
- 粗略查看数据集中各特征基本统计量;
- 缺失值和唯一值:
- 查看数据缺失值情况
- 查看唯一值特征情况
- 深入数据-查看数据类型
- 类别型数据
- 数值型数据
- 离散数值型数据
- 连续数值型数据
- 数据间相关关系
- 特征和特征之间关系
- 特征和目标变量之间关系
- 用pandas_profiling生成数据报告
3. 代码示例
1. 数据分析及可视化需要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns #基于matplotlib的图形可视化包
import datetime #处理日期和时间
import warnings
warnings.filterwarnings('ignore')
import warnings warnings.filterwarnings('ignore')
部分代码正常运行,但会提示警告,使用警告过滤器进行控制是否输出警告消息(上述代码表示忽略警告消息)
warnings.filterwarnings(action, message='', #包含正则表达式的字符串,警告消息的开始必须匹配,不区分大小写 category=Warning, #警告类型 module='', #包含模块名称的正则表达式字符串 lineno=0, #警告发生的行号,为 0 则匹配所有行号 append=False) #为真时,在末尾插入
其中action:
值 处理方式 “error” 将匹配警告转换为异常 “ignore” 忽略匹配的警告 “always” 始终输出匹配的警告 “default” 对于同样的警告只输出第一次出现的警告 “module” 在一个模块中只输出第一次出现的警告 “once” 输出第一次出现的警告,而不考虑它们的位置
2. 具体操作步骤
-
读取
pd.read_csv()
,查看表格data_train_sample = pd.read_csv("train.csv",nrows=5) #nrows设置可以读取文件的前几行 data_train_sample.head() #xx.head()是读取前五行,如果nrows<5,则只会显示nrows行
如果相对路径载入报错时,使用os.getcwd() 查看当前工作目录
import os os.getcwd()
分块读取
#设置chunksize参数,来控制每次迭代数据的大小 i = 0 #控制输出 chunker = pd