信用卡违约率分析

本文介绍了使用机器学习分析信用卡违约率的过程,包括数据预处理、特征提取、模型训练和评估。首先,对数据进行探索,发现大部分样本未违约,接着删除无关特征ID。然后,构建标签和特征数据,划分训练集和测试集。通过对比多种分类器,如决策树、SVM和随机森林,发现决策树模型表现最佳,准确率达到0.82。
摘要由CSDN通过智能技术生成

机器学习的主要流程如下:
在数据挖掘的过程中,我们

  • 1.将数据进行数据预处理
  • 2.进行特征提取、特征归一化等
  • 3.通过机器学习算法进行模型训练
  • 4.将新数据传入模型进行预测
  • 5.对预测结果进行评估

那比如今天我们来进行信用卡的违约率进行分析,当拿到数据的第一步,我们应该进行数据探索,并且对数据完整性和质量做评估。

import pandas as pd

# 数据加载
data = data = pd.read_csv('./UCI_Credit_Card.csv')

# 数据探索
print(data.info())
print(data.head())
print(data.describe()) 

得出信息如下:

  • 1.数据形状
    • 样本数据:30000行
    • 特征数据:25列
  • 2.数据含义
    在这里插入图片描述
  • 得出信息:
    • 目标:default.payment.next.month
    • 特征:除 default.payment.next.month 之外的数据
  • 有无缺失值情况:无

从以上的情况来看,这批数据的完整

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值