干货放前面
常常存在数据维度过大而用data.head()时候会有列中存在省略号的情况
此次金融风控可能无法直接看到n1到n14的所有信息,可用下面解决
#1最大展示60列 pd.set_option('display.max_columns',60) #最大展示60行 pd.set_option('display.max_row',160) 目的
:1. 1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接 下来的机器学习或者深度学习建模.2. 2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings('ignore')
#文件读取
data_train=pd.read_csv('./train.csv')
#查看当前路径
os.getcwd()
#查看数据的原始维度
data_train.shape()
#查看列名称,也叫特征名称
data_train.columns()
#熟悉数据类型
data_train.info()
#查看数据集的一些基本统计量
data_train.describe()
#查看数据前几列
data_train.head(5)#5列
#查看数据后几列
data_train.tail(5)
#查看数据总共有几列有缺失
data_train.isnull().any().sum()
#查看某一列的统计规律
data_train['term'].valu_counts()
plt.figure(figsize=(8, 8))
sns.barplot(data_train["employmentLength"].value_counts(dropna=False)[:20],data_train["employmentLength"].value_counts(dropna=False).keys()[:20])
plt.show()