金融风控-贷款违约预测-训练营 - Task 2
一、 学习知识点概要
- 学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值)
- 数据特征相关的可视化
二、学习内容
2.1 学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值)
2.1.1 准备工作
- 导入所需的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings('ignore')
- 读取数据文件
data_train = pd.read_csv('train.csv')
data_test_a = pd.read_csv('testA.csv')
2.1.2 对数据的初步了解
大致包括包括数据集大小,原始特征维度,数据类型,数据集中各特征基本统计量
- 数据集大小,原始特征维度(通过shape,columns函数查看)
- 数据类型(使用info())
data_train.info