风控场景中值得收藏的10个经典算法模型的实操与应用

在风控领域中,我们也经常接触到回归模型场景,常见的例如产品额度定价、客户价值评估、信息指数分析等。针对回归模型,建模的目标变量是连续型,这是在特征数据上与分类模型最明显的区别。在模型具体实现的过程中,采用的机器学习算法在很多情况下与分类场景比较类似,比如决策树、随机森林、XGBoost、KNN等,都可以解决回归与分类问题,而传统算法线性回归、逻辑回归等,这些算法是仅能实现回归或分类某一问题场景的。对于回归模型的建立与应用,显然在实际业务场景中是非常重要的,作为数据建模或数据分析人员是需要全面熟悉和了解的内容,而实现回归模型的多类算法,更是我们应掌握的必备能力。

本文围绕以上实际情况,将为大家全面梳理并介绍下回归模型的实现方法,共含10种常见的机器学习算法,包括线性回归(LR)、多项式回归(Poly)、支持向量机回归(SVR)、决策树回归(DecisionTree)、随机森林回归(RandomForest)、XGBoost回归、LightGBM回归、LASSO回归、Ridge回归、ElasticNet回归等。同时,为了便于大家深入理解各算法的应用过程,我们结合具体实例数据,依次采用相关算法来建立回归模型,并将模型结果通过可视化方式进行展现。此次介绍内容分别介绍10种回归算法的实例场景与应用特点,欢迎各位小伙伴来学习。
本文选取的测试样本数据,通过指定具体数据然后由python代码来生成,简单起见,样本数据仅包括10条样本与2个字段,具体包含1个特征变量feature、1个目标变量target,二者均为数值类型。当然,在实际业务场景中,样本规模与特征数量是比较多的,这里重点内容是为介绍各回归模型算法的实现过程,因此选取少量数据样例来展开分析。以上描述的样本数据情况,具体的实现过程如图1所示,特征分布结果如图2所示。
在这里插入图片描述

                                                             图1 样本数据生成


在这里插入图片描述

                                                              图2 样本数据分布

获取测试样本数据之后,接下来依次介绍各类回归算法的模型实现过程,同时采用可视化方式展示模型曲线拟合结果,本篇介绍的算法包括线性回归(LR)、多项式回归(Poly)、支持向量机回归(SVR)、决策树回归(Tree)、随机森林回归(RF)。

1、线性回归(LR)
线性回归(Linear Regression)是传统机器学习较为经典的算法,在回归模型中是最流行的实现方法。线性回归是一种线性模型,也就是假设自变量X与因变量Y之间存在某种线性关系。根据自变量X数量的不同,可以划分为单变量线性回归与多变量线性回归,一般情况下主要为多变量线性回归。在Python环境中,线性回归可以通过调用sklearn库中的LinearRegression()来实现。针对以上样本数据,采用线性回归(LR)来建立模型,并将模型训练的曲线结果进行可视化展示,具体实现过程如图3所示,输出可视化结果如图4所示。
在这里插入图片描述

                                                             图3 线性回归模型实现


在这里插入图片描述

                                                           图4 线性回归拟合结果

线性回归算法的原理逻辑较为简单,且建模的实现过程快速方便,由上图可以看出模型的展示结果表现很直观,使得模型应用的业务解释性也较好,但是在模型拟合过程中对异常值非常敏感,因此在模型训练前的数据处理阶段,对特征的异常值进行必要的分析与处理。

2、多项式回归(Poly)
多项式回归(Polynomial Regressor)可以解决非线性特征数据的回归建模场景,其原理逻辑类似线性回归,通过自变量X与因变量Y之间的数据关系,来确定模型曲线适合样本数据点分布的最佳方法。多项式回归模型可以通过调用sklearn库中的PolynomialFeatures()来实现,其过程首先是生成一个指定自由度数(degree)的多项式特征矩阵,然后可以通过LinearRegression对象对特征矩阵数据进行拟合训练。现采用多项式回归(Poly)来建立模型,并将模型训练的曲线结果进行可视化展示,具体实现过程如图5所示,输出可视化结果如图6所示。
在这里插入图片描述

                                                          图5 多项式回归模型实现


在这里插入图片描述

                                                             图6 多项式回归拟合结果

多项式回归算法相比线性回归来讲,在应用上更为自由灵活,可以对非线性的特征数据进行建模,有效实现较为复杂的模型关系。在使用多项式回归算法过程中,特别注意需要指定特征多项式的自由度(degree),此参数决定了自变量特征的规模大小,若参数定义不合理,可能会导致模型出现过拟合现象,在实际场景中需要结合样本情况与业务需求综合而定。

3、支持向量机回归(SVR)
支持向量机回归(Simple Vector Regressor)是支持向量机SVM在解决回归场景的算法,可以通过调用sklearn库中的SVR()来实现。在训练拟合SVR模型之前,为了更好体现模型的效果,一般会对特征变量进行标准化处理,使各字段的量纲得到统一。现采用支持向量机回归(SVR)来建立模型,并将模型训练的曲线结果进行可视化展示,具体实现过程如图7所示,输出可视化结果如图8所示。
在这里插入图片描述

                                                     图7 支持向量机回归模型实现


在这里插入图片描述

                                                        图8 支持向量机回归拟合结果

支持向量机回归算法在模型训练拟合过程中,对异常值具有较好的鲁棒性,而且在高维特征空间下也是表现比较好的。同时,支持向量机回归模型具有较好的泛化能力,在模型应用时较为稳定。但是,在建模样本数据上,当特征字段的数量过多时,很容易导致模型产生过拟合。

4、决策树回归(DecisionTree)
决策树回归(DecisionTreeRegressor)是通过对建模样本特征数据的学习,从中推断出简单的决策规则来预测目标变量结果,决策树回归可以通过调用sklearn库中的DecisionTreeRegressor()来实现。现采用决策树回归(TreeRegressor)来建立模型,并将模型训练的曲线结果进行可视化展示,具体实现过程如图9所示,输出可视化结果如图10所示。
在这里插入图片描述

                                                            图9 决策树回归模型实现


在这里插入图片描述

                                                            图10 决策树回归拟合结果

决策树回归算法在实际场景中的应用较广,最大的优点是可以通过可视化树结构展现形式,便于模型理解与业务解释。对于决策树模型的预测结果,并不像线性回归、多项式回归等模型曲线那样平滑,而是一种非连续非平滑的分布趋势。

5、随机森林回归(RandomForest)
随机森林回归(RandomForest)是决策树回归衍生而来的模型算法,采用多棵决策树来拟合训练模型,并通过多棵树的平均值结果来评价模型的综合性能,这个过程不仅有效提升了模型的准确度,而且有效防止了模型的过拟合现象。随机森林回归可以通过调用sklearn库中的RandomForestRegressor()来实现。现采用随机森林回归(RandomForest)来建立模型,并将模型训练的曲线结果进行可视化展示,具体实现过程如图11所示,输出可视化结果如图12所示。
在这里插入图片描述

                                                        图11 随机森林回归模型实现


在这里插入图片描述

                                                         图12 随机森林回归拟合结果

随机森林回归算法在模型训练过程中有效防止了模型的过拟合情况,并提升了模型的准确度性能,因此在实际业务场景中应用较为广泛。
综合以上内容,我们结合具体样本数据,采用实例建模与可视化展示的形式,依次介绍了线性回归(LR)、多项式回归(Poly)、支持向量机回归(SVR)、决策树回归(Tree)、随机森林回归(RF)共5种应用较多的回归模型算法。由于本文章为系列专题,对于其他5种回归算法,分别是:
6、XGBoost回归

7、LightGBM回归
8、Lasso回归
9、Ridge回归
10、ElasticNet回归
另外的这五种算法,我们已经在知识星球社区中,公布相关的算法细则以及相关的实操内容:
在这里插入图片描述

在这里插入图片描述

为了便于大家对以上各回归模型算法的进一步理解与熟悉,本文额外附带了与以上内容同步的python代码与样本数据,实操部分详情内容也请移至知识星球查看:
在这里插入图片描述
在这里插入图片描述

~原创文章

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值