银行信用卡风险大数据分析与挖掘2024

银行信用卡风险大数据分析与挖掘

使用excel数据挖掘功能完成

一、信用卡客户信用等级影响因素分析与挖掘

基于客户信用记录表

1. 数据预处理

浏览数据
  • 客户等级占比,其中优质客户占比较少,风险客户很多,分析影响客户信用等级的原因

    在这里插入图片描述

  • 年龄分布,为了方便挖掘,后续会重新标记为30岁以下,30-50,50岁以上

    在这里插入图片描述

  • 婚姻状态,有一个离散值

    在这里插入图片描述

  • 户籍分布,分为特别发达、一般和偏远

    在这里插入图片描述

  • 教育程度,后续会重新标记为是否上过大学

    在这里插入图片描述

  • 住房类型,其他影响挖掘,后续会当作离散值删除

    在这里插入图片描述

  • 职业类别

    在这里插入图片描述

  • 工作年限,将20年以上的标记为一类

在这里插入图片描述

  • 个人收入 收入差距太大了

在这里插入图片描述

可以看到部分人的收入过高,部分人过低

在这里插入图片描述

在这里插入图片描述

  • 保险缴纳

在这里插入图片描述

  • 车辆情况

    在这里插入图片描述

  • 信用评分

    在这里插入图片描述

  • 额度

在这里插入图片描述

  • 审批结果

在这里插入图片描述

离群值清除
  • 婚姻状态,选择将一个丧偶人士的数据清除

    在这里插入图片描述

在这里插入图片描述

  • 住房类型

    在这里插入图片描述

在这里插入图片描述

重新标记
  • 年龄 重新标记为低于30、30-50、大于50

    在这里插入图片描述在这里插入图片描述

  • 户籍

    在这里插入图片描述

  • 教育程度

    在这里插入图片描述

  • 工作年限

    在这里插入图片描述

采用突出显示异常值处理

异常值报表

在这里插入图片描述

异常值数据,共36条

在这里插入图片描述

选择删除异常值

数据处理结果

在这里插入图片描述

2. 数据挖掘

采用分类中决策树构建模型,判断信用卡客户信用等级影响因素,这里没有选择收入,是因为收入是连续值,所以我们判断的是除收入外最重要的影响因素

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

生成结果

在这里插入图片描述

3. 挖掘结论分析与建议

决策树:

在这里插入图片描述

分析及建议:

该模型用于预测客户的风险等级(A、B、C或D),基于几个关键特征:居住类型(自购房或租房)、年龄和教育程度。

从这个决策树中可以得出以下几点:

  • 对于居住类型为“自购”的客户:
    • 如果年龄小于30岁且教育程度为本科及以上,则风险等级为A的概率较高。
    • 如果年龄大于等于30岁且教育程度为本科及以上,则风险等级为B的概率较高。
    • 如果年龄大于等于30岁且教育程度为本科及以下,则风险等级为C的概率较高。
  • 对于居住类型为“租”的客户:
    • 如果年龄小于30岁且教育程度为本科及以下,则风险等级为C的概率较高。
    • 如果年龄大于等于30岁且教育程度为本科及以下,则风险等级为D的概率较高。
    • 如果年龄大于等于30岁且教育程度为本科及以上,则风险等级为C的概率较高。

基于这些信息,给出建议如下:

  1. 针对居住类型为“自购”的年轻高学历客户(年龄小于30岁且教育程度为本科及以上),他们可能具有较低的风险等级(A或B)。因此,对于这类客户,可以考虑提供更优惠的产品和服务,以吸引并保留他们。

  2. 相反地,针对居住类型为“租”且年龄较大、教育程度较低的客户(年龄大于等于30岁且教育程度为本科及以下),他们可能具有较高的风险等级(C或D)。因此,在与这类客户打交道时要更加谨慎,并采取相应的风险管理措施。

  3. 对于居住类型为“租”的年轻低学历客户(年龄小于30岁且教育程度为本科及以下),他们的风险等级也相对较高(C)。因此,需要对他们进行更多的关注和管理,以便及时发现潜在问题并采取相应措施。

依赖关系网络

在这里插入图片描述

在这里插入图片描述

图中可以看出,最强连接是居住类型,也就是客户是否有房

说明:以上分析均不考虑连续收入,因为连续数据实在不好重新标注,可以把它当成单独的重要因素进行挖掘

二、欺诈人口属性分析与挖掘(同样为不考虑收入因素)

基于消费历史记录表

1. 数据预处理

在这里插入图片描述

1.1 分析关键影响因素

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

根据表格中的数据,我们可以得到以下结论:

  1. 日均消费金额:当日均消费金额在7到12次之间时,欺诈的可能性更高(红色);而在5到7次之间时,欺诈的可能性较低(绿色)。
  2. 卡类别的影响:白金卡和金卡的欺诈可能性较低(绿色),而普卡的欺诈可能性较高(红色)。
  3. 客户号的影响:某些特定的客户号(999993847675和999993864022)有较高的欺诈可能性(红色)。
  4. 额度的影响:额度为100000的信用卡存在较高的欺诈可能性(红色)。

综上所述,银行或其他金融机构可以根据这些信息调整其风险管理策略。例如,对于日均交易次数较多、持有普卡、拥有特定客户号以及信用额度较大的账户,应加强监控和审核,以降低欺诈风险。同时,也可以通过提高安全措施、实施更严格的审批流程等方式来防范欺诈行为。

1.2 类别检测

在这里插入图片描述在这里插入图片描述

  • 类别1的用户主要进行小额交易,无论是单笔最小还是最大金额都很低。
  • 用户的日均交易次数处于中等水平,表明他们是频繁但非过度使用者。
  • 使用的卡片多为普通卡,可能意味着这些用户尚未达到升级卡级别的资格或需求。
  • 所有记录都没有欺诈行为,这可能是因为这一类别的用户交易模式较为常规,不容易被标记为欺诈。

1.3 突出显示异常值

在这里插入图片描述

选择删除异常值

2. 数据挖掘

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

决策树

在这里插入图片描述在这里插入图片描述

在这里插入图片描述

分析建议

通过这个决策树模型,我们可以看出日均交易次数和额度对欺诈行为的影响。具体来说,当日均交易次数较高(大于等于4次且小于6次),并且额度不是固定值10000元时,欺诈的可能性会增加。因此,银行或其他金融机构可以通过监控这类账户来提高风险预警能力,并采取相应的预防措施,如加强审核或设置更高的安全阈值。

此外,该模型也可以帮助我们了解欺诈行为发生的概率随日均交易次数和额度变化的趋势。例如,在日均交易次数较低(小于4次)或额度固定为10000元时,欺诈行为的概率较小。这有助于优化风控策略,比如设定不同的风险评估标准以适应不同的用户行为模式。

聚类

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

通过这个图形,我们可以看到不同分类之间的差异。例如,分类1的用户似乎是最活跃的,他们不仅有最高的日均交易次数和日均消费金额,而且单笔消费的最大金额也最高。另一方面,分类3的用户额度最低,日均交易次数最少,且单笔消费的最大金额也最低。这可能表明分类1的用户是高价值客户,而分类3的用户可能是新用户或低活跃度用户。

在这里插入图片描述

在这里插入图片描述

分析与建议

要深入分析这些数据,我们需要知道每个分类的具体含义,例如,它们可能代表不同的用户群体,如新老用户、活跃度高低、信用评分等级等。有了这些额外信息,我们可以构建更精确的用户画像,从而制定更好的市场营销策略或风险管理政策。例如,对于分类1的用户,银行可能希望提供更多高端服务或优惠,而对于分类3的用户,则可能需要关注如何提升他们的活跃度和消费额。

一共聚类9个,关于其他类别的分析在这里不再详述。

三、excel数据挖掘总结

文章主要完成了两项重要任务:一是分析信用卡客户的信用等级影响因素,二是挖掘信用卡欺诈的人口属性特征。以下是具体总结:

首先,在信用等级影响因素分析方面,文章使用Excel数据挖掘功能处理了客户信用记录表,通过预处理数据、构建决策树模型和分析模型结果,得出了客户信用等级的主要影响因素。预处理阶段包括数据清理、变量转换和异常值处理。模型分析中,居住类型、年龄和教育程度被识别为决定客户信用等级的关键特征。例如,居住类型为自购房的年轻且受过高等教育的客户(年龄小于30岁,本科及以上)具有较低的风险等级(A或B)。相反,租房的、年龄较大且教育程度较低的客户(年龄30岁以上,本科以下)风险等级较高(C或D)。因此,文章建议银行为自购房的年轻高学历客户提供更优惠的服务,同时对租房的老年低学历客户采取更谨慎的风险管理策略。

其次,关于信用卡欺诈的人口属性分析,文章基于消费历史记录表进行了数据预处理和决策树建模。分析结果显示,日均消费金额、卡类别、特定客户号和额度是欺诈行为的关键影响因素。日均消费金额在7到12次之间欺诈可能性更高,普卡的欺诈可能性比白金卡和金卡高,特定客户号和大额度信用卡存在较高的欺诈风险。进一步的类别检测发现,类别1的用户主要进行小额交易,使用普通卡,没有欺诈行为。决策树模型揭示了欺诈行为与日均交易次数和额度的关系,指出日均交易次数高于4次且额度不固定为1万元时欺诈可能性增大。银行据此可以优化风控策略,对交易频繁、持有普通卡、特定客户号和大额度的账户加强监控。

在整个过程中,文章应用了数据预处理、异常值处理、决策树模型构建和分析、以及聚类分析等数据分析技术。通过对数据进行深入挖掘,银行能够优化信用卡风险管理和欺诈防控策略,提高风险预警能力和客户服务水平。文章强调了居住类型、年龄、教育程度、日均消费金额和额度对信用卡风险和欺诈行为的影响,为银行提供了一套实用的分析框架和策略建议。

测发现,类别1的用户主要进行小额交易,使用普通卡,没有欺诈行为。决策树模型揭示了欺诈行为与日均交易次数和额度的关系,指出日均交易次数高于4次且额度不固定为1万元时欺诈可能性增大。银行据此可以优化风控策略,对交易频繁、持有普通卡、特定客户号和大额度的账户加强监控。

在整个过程中,文章应用了数据预处理、异常值处理、决策树模型构建和分析、以及聚类分析等数据分析技术。通过对数据进行深入挖掘,银行能够优化信用卡风险管理和欺诈防控策略,提高风险预警能力和客户服务水平。文章强调了居住类型、年龄、教育程度、日均消费金额和额度对信用卡风险和欺诈行为的影响,为银行提供了一套实用的分析框架和策略建议。


至此,该项目完成,使用到数据源4个表中的两个;涉及到的数据集和pdf已上传资源,如果觉得图片不清晰,可以下载资源查看pdf
点赞关注收藏,获取更多干货知识~

  • 46
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
前言 5 第1章 信用卡数据分析系统编程理论基础 6 1.1 风险控制理论 6 1.1.1 信用卡风险的类型和特点: 6 1.1.2 信用卡风险管理的作用和手段: 6 1.2 数据库理论 7 1.2.1 ODBC连接数据库 7 1.2.2 结构化查询语言基础 8 1.2.3 ADO对象的数据库操作 9 第2章 需求分析 12 2.1 项目建议书 12 2.2 数据实现流程图 13 2.3 使用软件的比较: 13 2.4 计划任务: 15 第3章 总体的设计方案 17 3.1 概述 17 3.2 调用数据库表的结构 17 3.3 系统结构图 19 3.4 各功能模块: 19 第4章 系统实现 23 4.1 系统流程图: 23 4.2登陆界面的实现: 26 4.3主界面的实现: 27 4.4风险控制界面的实现: 29 4.5透支持卡人的特性分析的实现: 29 4.5.1 透支持卡人特征分析主画面的实现 29 4.5.2 透支持卡人特征分析对比分析图的实现: 31 4.5.3 透支持卡人特征分析输出报表的实现: 32 4.6 透支持卡人年龄层次分析界面的实现: 32 4.6.1 透支持卡人年龄层次分析主界面的实现: 32 4.6.2 透支金额年龄层次分析对比分析图的实现: 34 4.7 冻结/止付/挂失卡的比例分析的实现: 37 4.8 透支总量的对比分析的实现: 37 4.9 持卡人、担保人的信用评估的实现: 37 第5章 信用卡数据分析系统软件说明书 40 5.1 软件概述 40 5.2 功能 40 5.3 软件安装 40 5.3.1系统要求 40 5.3.2安装前的准备 40 5.3.3安装 40 5.4 运行说明 40 第6章 对使用VB.NET建立本系统的展望 42 第7章 小结 43 参考文献 44 附 录 45 附录A: 外文资料翻译-原文部分: 45 附录B: 外文资料翻译-译文部分: 50
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Frank牛蛙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值