机器学习的主要流程如下:
- 1.将数据进行数据预处理
- 2.进行特征提取、特征归一化等
- 3.通过机器学习算法进行模型训练
- 4.将新数据传入模型进行预测
- 5.对预测结果进行评估
那比如今天我们来进行信用卡的违约率进行分析,当拿到数据的第一步,我们应该进行数据探索,并且对数据完整性和质量做评估。
import pandas as pd
# 数据加载
data = data = pd.read_csv('./UCI_Credit_Card.csv')
# 数据探索
print(data.info())
print(data.head())
print(data.describe())
得出信息如下:
- 1.数据形状
- 样本数据:30000行
- 特征数据:25列
- 2.数据含义
- 得出信息:
- 目标:default.payment.next.month
- 特征:除 default.payment.next.month 之外的数据
- 有无缺失值情况:无
从以上的情况来看,这批数据的完整