论文笔记|Performance Evaluation of Machine Learning Approaches for Credit Scoring信用评分机器学习方法的性能评价

JenoJisung

已于 2023-11-13 13:01:02 修改

阅读量145

点赞数

文章标签：论文阅读机器学习人工智能

于 2023-11-11 17:59:29 首次发布

本文链接：https://blog.csdn.net/zzyzxt/article/details/134349498

版权

本文探讨了在金融信用风险评估中，使用机器学习方法，尤其是XGBoost分类器的性能优势。通过对比LDA、LR、SVM、DT、MLP、RF、GBDT等模型，实验结果显示XGBoost在准确率、AUC和Logistic损失方面表现出色，成为评估信用评分的首选模型。研究使用了'Give Me Some Credit'和'PPDai'数据集，展示了XGBoost在处理信用风险预测时的高预测分析性能。

摘要由CSDN通过智能技术生成

0 摘要

在当今世界，评估金融信用风险在会计和金融领域都具有十分重要的意义。金融机构需要将信用违约风险保持在可接受的水平，从而获得更高的盈利能力。近年来，随着现代数据科学的快速发展，许多机器学习方法已经被用于对从不同数据源中提取的信息进行准确的预测。本研究的目的是应用数据挖掘技术来获取信息，判断哪个分类器在评估所提出的模型的信用评分方面表现更好。本文分析使用的两个数据集分别是"Give Me Some Credit"数据集和"PPDai"数据集。本文采用了8种分类方法：线性判别分析( LDA )、逻辑回归( LR )、决策树( DT )、支持向量机( SVM )、随机森林( RF )、梯度提升决策树( GBDT )、极端梯度提升( XGboost )和多层感知机( MLP )。采用3个指标(准确率、AUC和Logistic损失)来分析各个分类器的性能。最终的实验结果表明，与其他7个模型相比，XGBoost分类器具有更好的预测分析性能。本文的研究结果也将为金融机构在面对现实中的信贷问题时，选择合适的分类器从而做出正确的判断提供实践价值。

LDA：　LDA是一种有监督的数据降维方法。LDA算法主要用来对样本进行分类，其分类的核心思想是：将高维样本数据投影到最佳分类的向量空间，保证在新的子空间中，有更大的类间距离和更小的类内距离。LDA的思想：“投影后类内方差最小，类间方差最大”。即数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。

LR：是线性二分类模型，也是广义的线性回归模型，可以计算某个样本特征下事件发生的概率。

DT决策树：

（作为机器学习中的一大类模型，树模型一直以来都颇受学界和业界的重视。目前无论是各大比赛各种大杀器的XGBoost、lightgbm、还是像随机森林、AdaBoost等典型集成学习模型，都是以决策树模型为基础的。传统的经典决策树算法包括ID3算法、C4.5算法以及GBDT的基分类器CART算法。三大经典决策树算法最主要的区别是其特征选择的准则不同。ID3算法选择特征的依据是信息增益、C4.5是信息增益比，而CART则是基尼指数。作为一种基础的分类和回归方法，决策树可以有以下两种理解方法：可以认为是if-then的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。）

定义：分类决策树模型是一种描述对实例进行分类的树形结构。

决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点，其中内部结点表示一个特征或属性，叶结点表示一个类。一般的，一棵决策树包含一个根结点、若干个内部结点和若干个叶结点。叶结点对应于决策结果，其他每个结点则对应于一个属性测试。每个结点包含的样本集合根据属性测试的结果被划分到子结点中，根结点包含样本全集，从根结点到每个叶结点的路径对应了一个判定测试序列。在下图中，圆和方框分别表示内部结点和叶结点。决策树学习的目的是为了产生一棵泛化能力强，即处理未见示例能力强的决策树。

用决策树分类：从根节点开始，对实例的某一特征进行测试，根据测试结果将实例分配到其子节点，此时每个子节点对应着该特征的一个取值，如此递归的对实例进行测试并分配，直到到达叶节点，最后将实例分到叶节点的类中。下图为决策树示意图，圆点——内部节点，方框——叶节点

支持向量机（SVM）：是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面，可以将问题化为一个求解凸二次规划的问题。与逻辑回归和神经网络相比，支持向量机，在学习复杂的非线性方程时提供了一种更为清晰，更加强大的方式。具体来说就是在线性可分时，在原空间寻找两类样本的最优分类超平面。在线性不可分时，加入松弛变量并通过使用非线性映射将低维度输入空间的样本映射到高维度空间使其变为线性可分，这样就可以在该特征空间中寻找最优分类超平面。

随机森林：就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（Ensemble Learning）方法。随机森林的名称中有两个关键词，一个是“随机”，一个就是“森林”。“森林”我们很好理解，一棵叫做树，那么成百上千棵就可以叫做森林了，这样的比喻还是很贴切的，其实这也是随机森林的主要思想–集成思想的体现。从直观角度来解释，每棵决策树都是一个分类器（假设现在针对的是分类问题），那么对于一个输入样本，N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出，这就是一种最简单的 Bagging 思想。

梯度提升决策树：GBDT 的全称是 Gradient Boosting Decision Tree，梯度提升决策树，理解为梯度提升 + 决策树。GB代表的是Gradient Boosting，意为梯度提升，梯度是一种数学概念，一个函数的梯度方向是函数上升最快的