基于卷积神经网络的信用卡欺诈侦测

摘要:信用卡在金融业变得越来越受欢迎,与此同时金融欺诈也在增多。卷积方面的方法使用基于规则的专家系统·来侦测欺诈行为,容易忽视的变化情景,以及正负样本极度不均衡的情况。在本文中我们提出一个基于CNN的欺诈侦测框架,用来捕获从已经标记的数据中学习到的期债行为的固有特征。大量的交易数据通过一个特征矩阵展示出来,而CNN将基于这些数据鉴定出一套针对每个样本的潜在模式。与一些优秀的方法相比,我们基于真实世界某个主流银行的大量交易数据上的实验阐明了我们框架的优越性能。

1. 引言
随着经济全球化在最近数十年内的快速发展,信用卡在金融交易中显得尤为重要。随之而来的问题就是信用卡交易欺诈的出现。机器学习方法已经被提出来其解决出现的这类问题。Kokkinaki提出了决策树和布尔逻辑函数,用来刻画正常交易模型从而侦测异常交易。然而一些与正交易十分相似的异常交易却无法被识别。正因如此神经网络和贝叶斯网络出现在这个领域。Ghosh提出了一种神经网络来检测信用卡的异常交易。贝叶斯信念网络和ANN也被引进来处理欺诈交易难题。但是这些模型因为太过复杂和有很高的过拟合的概率二备受质疑。为了发现异常交易的潜在模式同时避免模型的过拟合,我们使用CNN可以有效地降低特征冗余。
在机器学习领域,如何成功地生成信用卡交易的特征是主要挑战之一。一些聚合策略已经被提出用来在近期交易中获取用户的消费模型。但是这些模型并不能很好的描述客户消费的复杂模式。正因为如此,我们设计了一个新型的交易特征——基于每个用户的近期消费偏好的交易熵。为了将CNN应用到信用卡欺诈侦测的场景中,我们需要将交易特征转换为一个特征矩阵,以用来适应CNN模型。
除此之外,极度不均衡的数据也是欺诈检测中的另一个难题。针对主要类别的随机采样过疏方法是一个通用的技术,用来调整少数类别样本的占比。但很不巧的的是,这样会不可避免地遗漏值的信息。在本文中我们从真实的欺诈样本中生成了一些人造的欺诈样本,通过基于抽样方法的代价。因此我们可以得到和正样本相当的欺诈样本来进行训练。
简单来说,本文的主要贡献总结如下:
1. 提出了CNN框架来挖掘信用卡交易中潜在的欺诈模型。
2. 将每条记录的交易数据转换为特征矩阵,通过在时间序列上固有的关系和相互作用可以为CNN模型显示。
3. 通过在典型空间的抽样方法,极度不平衡的数据集被缓和,在欺诈检测上展现了一个不错的表现。
4. 一个新型的交易特征,称为交易熵,被提出来用于检测更加复杂欺诈模式。

2. 技术阐述
在这部分,我们首先提供了一个基于CNN的欺诈检测框架的描述。其次我们提出了一个新型的交易特征。再者基于抽样方法的损失我们也做了详细说明。在这部分的最后,CNN模型将被应用于信用卡欺诈检测的问题。
2.1 欺诈检测框架
我们得欺诈检测框架展示如图1,它是由训练和预测两个部分组成。训练部分主要包括四个模块:特征工程,抽样方法,特征转换和基于CNN的训练过程。训练过程是离线的,预测过程是在线的。当一个新的交易进入系统,预测部分可以迅速判断这笔交易是否存在欺诈嫌疑。预测的检测过程是由特征提取,特征转换和分类模块三部分组成。
对于特征提取模块,我们采用了来自于论文【1,3,7,8】的聚合策略。在我们的系统中,我们增加了交易熵到传统特征的采集中,从而模拟更加复杂的消费行为。
在大体的数据挖掘过程中,我们在特征工程后面训练模型。但是有一个问题就是信用卡数据的极度不均衡性。我们提出了一个基于抽样的代价方法来生成人造的欺诈数据。
除此之外,为了将CNN模型应用到这个问题的场景中,我们需要将特征转换为特征矩阵以适应这个模型。

2.2 特征工程
对于传统特征,我们可以将同一客户在在过去一段时间内的平均交易金额定义为AvgAmountT。T意思是指时间窗的长度。比如说,我们可以把T设置为不同的值:一天,两天,一周以及一个月,然后这些时间窗会生成四个特征。表1展示我们特征类型的细节。传统的特征类型不能够描述客户消费的复杂模式。因此我们提出了一种新的特征——交易熵。考虑在目前交易开始前同一客户在过去一段时间内所有交易,有K种商业交易类型,总交易金额是TotalAmountT,第i种商业交易类型的总交易额是AmountTi(i =1, 2, . . . , K),第i种商业类型的比例是pi:

第i种商业交易类型的熵可以被定义为EntT:

上面的计算只可以使用之前的交易然而目前的交易并不考虑在其中。然后我们把目前的交易加入到上述的计算中从而获得目前的熵:NewEntT。因此交易熵被定义为TradingEntropyT:

如果交易熵比较大,这条交易被判断有欺诈嫌疑的概率会很大。、
2.3 基于抽样的代价方法
基于抽样的代价方法是基于下面的观察发展起来的。在决策边界附近被定义为欺诈交易有较高的概率生成更多的人造欺诈样本。对于第i笔欺诈交易,欺诈交易i的编号被定义为fdi,正常交易i的编号被定义为ndi,第i笔交易的代价被定义为costi. dij 是第i笔交易和第j笔交易之间的距离。第i笔欺诈交易邻域可以被一个交易函数f(x)和一个中断值限定。f(x)=1 如果 x<0,否则f(x)=0。C则是中断值。

在获得了每个欺诈交易的代价后,我们使用k均值算法将欺诈交易划分成几个簇。如果我们想生成一个新的欺诈样本,我们选择一个欺诈交易x1 作为种子与cost保持一致。然后我们从x1所在的簇中择另一个欺诈交易x2 。新的人造欺诈样本可以通过
newFraud = α · x1 + (1 - α) · x2

来生成。其中α 是在(0,1)上随机生成。



2.4 CNN建模
在本文中我们采用CNN来检测信用卡的欺诈交易,因为CNN模型很适合用于海量数据的训练,同时它有避免模型过拟合的机制。CNN已经被成功地应用于一些领域,像图像分类和语音信号领域。但是并不是所有类型的数据都适用于CNN模型。特征转换的方法被提出就是为了适应CNN模型。信用卡交易数据的特征可以被划分为几个群组。每个群组通过不同的时间窗有不同的特征。在不同时间窗下生成的相同特征类型的两个特征有着很强的关系。因此在特征矩阵中,这些类型的两个特征会被放置在相近的位置。原始特征是一维的。我们可以将他们重塑为一个特征矩阵,在这个矩阵中行有不同的特征类型同时列表示的是不同的时间窗。将原始特征转换为特征矩阵的过程展示在图2和图3中。
这些热力图展示了很强的局部相关性,在行和列的形式上。根据特征矩阵中的局部相关性,CNN模型可以降低数据处理的复杂时间复杂性,同时保留有用的信息。我们的CNN结构和LeNet有着相似性,模型中一共有6层。模型的输入是一个特征矩阵。第一层是一个卷积层,接下来是一个下采样层。第三层也是一个卷积层。最后三层则是全连接层。图4展示了我们的CNN模型的结构。

3. 实验部分
这个部分分成三个部分。首先我们介绍一下数据集。其次我们展示了交易熵的重要性。最后我们阐述了我们CNN模型的结构。
3.1 数据集
为了评估提出的模型,我们使用来自于一个商业银行真实的信用卡交易数据。这个数据包含了银行一年的2.6多亿信用卡的交易。大约4000多条交易被标记为欺诈交易,剩下的都是正常交易。这些交易数据被划分为两部分。我们将前11个月的数据作为训练集,剩下月份的数据作为测试集。我们选择F1评分来评估我们模型的性能。

3.2 特征评估
为了评估交易熵的重要性,我们提出了特征评分:

这里T是时间窗的大小,uf t 和 ul t 表示欺诈和正常样本在一个给定的第t个时间窗上的均值,Stf 和Slt 则是对应的欺诈样本和正常样本的方差。这些评分对每个特征类型进行计算。如果这个评分比较高,这个特征类型就更重要。图5展示了不同特征类型的特征评分。我们可以很好地观察到交易熵排名。
为了更好地阐述交易熵的功效,我们使用不同模型和不同的抽样比例来获得带有或者不带有交易熵特征的性能。测试结果展示在图5中。
3.3 模型评估
由上述可知,提出的交易熵特征在很大程度上提高了分类准确率。为了缓和不平衡数据集的问题,我们采用了基于抽样方法的cost方法来生成不同数目的欺诈样本。在我们的实验中,我们分别把欺诈样本的数量扩大到原始欺诈交易大小的1倍,2倍,3倍。而正常交易样本是随机欠抽样处理的。在特征工程和数据采样后,我们通过和其他现有的模型对比,评估了CNN模型的性能。图6展示了比较的结果。我们可以发现基于抽样方法的cost可以利用正常数据,同时可以减轻数据不均衡问题。除此之外,在不同样本集上的CNN模型上都达到了最好的性能。

4. 结论
在本文中,我们介绍了一个基于CNN的信用卡欺诈检测方法。提出的交易熵可以塑造更加复杂的消费行为。除此之外,我们重组了交易特征到特征矩阵中,并在CNN中使用这个特征矩阵。来自于某商业银行的真实交易数据的试验结果表明我们提出的方法优越于其他的优秀方法。

  • 3
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
生成对抗网络(GAN)在信用卡欺诈检测被广泛应用。GAN是一种由生成器和判别器组成的模型,通过互相博弈的方式提高生成数据的质量。在信用卡欺诈检测,可以将正常交易作为真实数据,将欺诈交易作为生成数据。 以下是一个简单的基于Python的信用卡欺诈检测GAN示例: 1. 准备数据集: 收集包含正常和欺诈交易的数据集,并进行预处理。 2. 构建生成器: 使用神经网络构建生成器模型。生成器接受一个随机噪声向量作为输入,并输出合成的欺诈交易数据。 3. 构建判别器: 使用神经网络构建判别器模型。判别器接受真实的正常交易数据和生成器生成的欺诈交易数据作为输入,并输出一个概率值,表示输入数据是真实正常交易的概率。 4. 训练模型: 通过交替训练生成器和判别器来提高模型性能。首先,固定生成器,训练判别器来区分真实数据和生成数据。然后,固定判别器,训练生成器来生成更逼真的欺诈交易数据。重复这个过程直到达到预设的训练次数或性能指标。 5. 评估模型: 使用测试数据集评估训练好的模型的性能。可以使用各种指标,如准确率、精确率、召回率等来评估模型的欺诈检测能力。 需要注意的是,这只是一个简单的示例,实际应用可能需要更复杂的模型和技术来处理信用卡欺诈检测。同时,保护用户隐私和数据安全也是很重要的,需要采取适当的措施来保护敏感信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值