金融风控 探索性数据分析

干货放前面
常常存在数据维度过大而用data.head()时候会有列中存在省略号的情况
此次金融风控可能无法直接看到n1到n14的所有信息,可用下面解决
#1最大展示60列 pd.set_option('display.max_columns',60) #最大展示60行 pd.set_option('display.max_row',160) 目的:1. 1.EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接 下来的机器学习或者深度学习建模.2. 2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings('ignore')
#文件读取
data_train=pd.read_csv('./train.csv')
#查看当前路径
os.getcwd()

#查看数据的原始维度
data_train.shape()
#查看列名称,也叫特征名称
data_train.columns()
#熟悉数据类型
data_train.info()
#查看数据集的一些基本统计量
data_train.describe()
#查看数据前几列
data_train.head(5)#5列
#查看数据后几列
data_train.tail(5)
#查看数据总共有几列有缺失
data_train.isnull().any().sum()

#查看某一列的统计规律
data_train['term'].valu_counts()
plt.figure(figsize=(8, 8))
sns.barplot(data_train["employmentLength"].value_counts(dropna=False)[:20],data_train["employmentLength"].value_counts(dropna=False).keys()[:20])
plt.show()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

kaggle竞赛指南

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值