金融风控探索性数据分析

最新推荐文章于 2023-07-08 11:54:47 发布

kaggle竞赛指南

最新推荐文章于 2023-07-08 11:54:47 发布

阅读量178

点赞数

分类专栏：作业文章标签：数据分析

本文链接：https://blog.csdn.net/weixin_45794268/article/details/108672649

版权

作业专栏收录该内容

19 篇文章 0 订阅

订阅专栏

干货放前面
常常存在数据维度过大而用data.head()时候会有列中存在省略号的情况
此次金融风控可能无法直接看到n1到n14的所有信息，可用下面解决
#1最大展示60列 pd.set_option('display.max_columns',60) #最大展示60行 pd.set_option('display.max_row',160) 目的：1. 1.EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2. 2.了解变量间的相互关系、变量与预测值之间的存在关系。3.为特征工程做准备

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings('ignore')

#文件读取
data_train=pd.read_csv('./train.csv')
#查看当前路径
os.getcwd()

#查看数据的原始维度
data_train.shape()
#查看列名称，也叫特征名称
data_train.columns()
#熟悉数据类型
data_train.info()
#查看数据集的一些基本统计量
data_train.describe()
#查看数据前几列
data_train.head(5)#5列
#查看数据后几列
data_train.tail(5)
#查看数据总共有几列有缺失
data_train.isnull().any().sum()

#查看某一列的统计规律
data_train['term'].valu_counts()

plt.figure(figsize=(8, 8))
sns.barplot(data_train["employmentLength"].value_counts(dropna=False)[:20],data_train["employmentLength"].value_counts(dropna=False).keys()[:20])
plt.show()

kaggle竞赛指南

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
金融风控探索性数据分析

干货放前面常常存在数据维度过大而用data.head()时候会有列中存在省略号的情况此次金融风控可能无法直接看到n1到n14的所有信息，可用下面解决#1最大展示60列 pd.set_option('display.max_columns',60) #最大展示60行 pd.set_option('display.max_row',160) 目的：1. 1.EDA价值主要在于熟悉了解整个数据集的基本情况（缺失值，异常值），对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模.2. 2.了解变量间
复制链接

扫一扫