2020-09-24


Task4 建模与调参

此部分为零基础入门金融风控的 Task4 建模调参部分,带你来了解各种模型以及模型的评价和调参策略,欢迎大家后续多多交流。

赛题:零基础入门数据挖掘 - 零基础入门金融风控之贷款违约预测


项目地址:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl

比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction

学习目标

学习在金融分控领域常用的机器学习模型
学习机器学习模型的建模过程与调参流程

学习内容

1.逻辑回归模型:
(1)理解逻辑回归模型
(2)逻辑回归模型的应用
(3)逻辑回归的优缺点
2.树模型
(1)理解树模型
(2)理解树模型
(3)树模型的优缺点
3.集成模型
(1)基于bagging思想的集成模型
(2)基于boosting思想的集成模型
4.模型对比与性能评估
(1)回归模型/树模型/集成模型;
(2)模型评估方法
(3)模型评价结果
5.模型调参
(1)贪心调参方法
(2)网格调参方法
(3)贝叶斯调参方法

学习笔记

逻辑回归模型

  1. 逻辑回归的本质和线性回归一样,线性回归是求出一条拟合空间中所有点的线,逻辑回归使用sigmoid函数转换线性回归的输出以返回概率值,然后可以将概率值映射到两个或更多个离散类

树模型

  1. 优点
    简单直观,生成的决策树可以可视化展示
    数据不需要预处理,不需要归一化,不需要处理缺失数据
    既可以处理离散值,也可以处理连续值
    缺点
    决策树算法非常容易过拟合,导致泛化能力不强(可进行适当的剪枝)
    采用的是贪心算法,容易得到局部最优解

集成模型

  1. 通过组合多个学习器来完成学习任务,通过集成方法,可以将多个弱学习器组合成一个强分类器,因此集成学习的泛化能力一般比单一分类器要好。集成方法主要包括Bagging和Boosting,Bagging和Boosting都是将已有的分类或回归算法通过一定方式组合起来,形成一个更加强大的分类。两种方法都是把若干个分类器整合为一个分类器的方法,只是整合的方式不一样,最终得到不一样的效果。常见的基于Baggin思想的集成模型有:随机森林、基于Boosting思想的集成模型有:Adaboost、GBDT、XgBoost、LightGBM等。

模型对比与性能评估

  1. 数据集划分总结
    对于数据量充足的时候,通常采用留出法或者k折交叉验证法来进行训练/测试集的划分;
    对于数据集小且难以有效划分训练/测试集时使用自助法;
    对于数据集小且可有效划分的时候最好使用留一法来进行划分,因为这种方法最为准确。
  2. 如果模型A的ROC曲线完全包住了模型B的ROC曲线,那么我们就认为模型A要优于模型B,如果两条曲线有交叉的话,我们就通过比较ROC与X,Y轴所围得曲线的面积来判断,面积越大,模型的性能就越优,这个面积我们称之为AUC(area under ROC curve)

模型调参

  1. 先使用当前对模型影响最大的参数进行调优,达到当前参数下的模型最优化,再使用对模型影响次之的参数进行调优,如此下去,直到所有的参数调整完毕,这个方法的缺点就是可能会调到局部最优而不是全局最优。
  2. sklearn 提供GridSearchCV用于进行网格搜索,只需要把模型的参数输进去,就能给出最优化的结果和参数。相比起贪心调参,网格搜索的结果会更优,但是网格搜索只适合于小数据集,一旦数据的量级上去了,很难得出结果。
  3. 贝叶斯调参的主要思想是:给定优化的目标函数(广义的函数,只需指定输入和输出即可,无需知道内部结构以及数学性质),通过不断地添加样本点来更新目标函数的后验分布(高斯过程,直到后验分布基本贴合于真实分布)。简单的说,就是考虑了上一次参数的信息,从而更好的调整当前的参数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值