机器学习项目实战——信用卡反欺诈预测模型

项目背景

      该项目所使用的数据集包含持卡人在两天内使用信用卡的交易情况,共有284807笔交易,其中有492笔交易为盗刷。数据集中的数据是经过了PCA降维,并且出于保密原因,这些特征都进行了脱敏处理,数据以秒为单位记录。通过对这些数据的分析,建模,可以对信用卡盗刷情况进行预测。有利于银行对存在风险的交易采取措施,减小银行和持卡人的损失。并设置合理的阈值,使得银行在减小盗刷损失的前提下,更好的提升使用信用卡的体验。

数据总览

     从数据来看,类别分为:1(存在盗刷),0(正常交易),这是一个二分类问题。此外正负样本极度不平衡,可采用过采样的方式使样本类别平衡。特征V1V28是经过PCA处理,而特征TimeAmount的数据规格与其他特征存在量纲上的区别,需要对这些特征进行处理,使这些特征的量纲相同。我们选取70%的数据进行训练,30%的数据进行预测和评估。

模型选择和评估

      这是一个二分类监督学习场景,我们选择逻辑回归(Logistic Regression)算法。在模型评估方面。我们使用ROC曲线下的面积AUC。

读取数据

import pandas as pd
data=pd.read_csv('creditcard.csv')
y=data['Class']

执行结果


                
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值