项目背景
该项目所使用的数据集包含持卡人在两天内使用信用卡的交易情况,共有284807笔交易,其中有492笔交易为盗刷。数据集中的数据是经过了PCA降维,并且出于保密原因,这些特征都进行了脱敏处理,数据以秒为单位记录。通过对这些数据的分析,建模,可以对信用卡盗刷情况进行预测。有利于银行对存在风险的交易采取措施,减小银行和持卡人的损失。并设置合理的阈值,使得银行在减小盗刷损失的前提下,更好的提升使用信用卡的体验。
数据总览
从数据来看,类别分为:1(存在盗刷),0(正常交易),这是一个二分类问题。此外正负样本极度不平衡,可采用过采样的方式使样本类别平衡。特征V1至V28是经过PCA处理,而特征Time和Amount的数据规格与其他特征存在量纲上的区别,需要对这些特征进行处理,使这些特征的量纲相同。我们选取70%的数据进行训练,30%的数据进行预测和评估。
模型选择和评估
这是一个二分类监督学习场景,我们选择逻辑回归(Logistic Regression)算法。在模型评估方面。我们使用ROC曲线下的面积AUC。
读取数据
import pandas as pd
data=pd.read_csv('creditcard.csv')
y=data['Class']
执行结果