算法研究
郑才华
这个作者很懒,什么都没留下…
展开
-
数据挖掘模型中的IV和WOE详解
1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑选入模变量过程是个比较复...转载 2018-04-14 20:04:02 · 1737 阅读 · 0 评论 -
评分卡模型开发-定量指标筛选
模型开发的前三步主要讲的是数据处理的方法,从第四步开始我们将逐步讲述模型开发的方法。在进行模型开发时,并非我们收集的每个指标都会用作模型开发,而是需要从收集的所有指标中筛选出对违约状态影响最大的指标,作为入模指标来开发模型。接下来,我们将分别介绍定量指标和定性指标的筛选方法。library(InformationValue)library(klaR)data(GermanCredit)tra...转载 2018-04-14 21:53:41 · 1149 阅读 · 1 评论 -
评分卡模型开发-定性指标筛选
定量指标是数值型的,我们还可以用回归的方法来筛选,那么定性的指标怎么办呢? R里面给我们提供了非常强大的IV值计算算法,通过引用R里面的informationvalue包,来计算各指标的IV值,即可得到各定性指标间的重要性度量,选取其中的high predictive指标即可。 有很多小伙伴不知道informationvalue是什么: 我大概说一下,IV值衡量两个名义变量(其中一个是二元变量)之...转载 2018-04-14 21:56:56 · 972 阅读 · 0 评论 -
WOE评分卡--WOE理论
1、评分卡概述最常见的用于信用评分的模型就是logistic回归,这是一种处理二分类因变量的广义线性模型。这种模型的理论基础比较扎实,但是对于不同的问题当然也存在一些特殊的处理方式.由于制作评分卡的某些需要,通常会在建立评分模型时将自变量做离散化处理(等宽切割,等高切割,或者利用决策树来切割),但是模型本身没办法很好地直接接受分类自变量的输入,因此需要对自变量进行再次的处理。比较常规的做法有两种:...转载 2018-04-13 13:53:39 · 1785 阅读 · 0 评论