贷前风控-风控建模
贷前风控-风控建模
慢爬小蜗牛
很多文章非原创,错误请自行甄别
展开
-
【采用】风控模型评估方法以及大数据风控模型概念
更新一下有效性指标中的区分能力指标:KS(Kolmogorov-Smirnov):KS用于模型风险区分能力进行评估,指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。KS的计算步骤如下:1. 计算每个评分区间的好坏账户数。2. 计算每个评分区间的累计好账户数占总好账户数比率(good%)和累计坏账户数占总坏账户数比率(bad%)...原创 2019-12-30 15:15:07 · 695 阅读 · 0 评论 -
你应该知道的模型评估的五个方法
1、混淆矩阵。2、提升图&洛伦兹图。3、 基尼系数4、ks曲线5、roc曲线。1混淆矩阵混淆矩阵不能作为评估模型的唯一标准,混淆矩阵是算模型其他指标的基础,后面会讲到,但是对混淆矩阵的理解是必要的。模型跑出来的“Y”值为每个客户的预测违约概率,可以理解为客户的有多大的可能违约。把概率等分分段,y坐标为该区间的人数,可以得到这样子一个图表。可以...原创 2019-12-25 15:56:54 · 2237 阅读 · 0 评论 -
深度解析两种信用评估模型
“大数据”概念的最早出现,是从2012年2月份纽约时报一篇文章开始的。到目前为止,在大数据领域当中的投资已经越来越热,该领域企业越来越多。大数据在美国金融当中最直接的场景,主要运用于信用评估体系。信用评分是一个数字,帮助贷款人评估一个人的信用报告,估计其信用风险。信用评分会影响一个人的能力,以符合不同类型的信贷和利率的变化。一个具有较高信用评分的人,可能有资格获得更长的贷款期限和更低的利率,从...原创 2019-12-25 14:45:40 · 1633 阅读 · 0 评论 -
【参考】vintage、迁移率、滚动率、入催率等概念——看完你就懂了
随着互联网金融的发展,对数据分析的需求越来越大。数据分析的目的其实是为了找到风险和收益的平衡点。高收益伴随着高风险,而低风险的回报又如同鸡肋。所以,太高的风险,太低的收益都不行。平衡点通俗来讲就是风险在控制范围之中,收益也可以接受。为了找到平衡点,我们通常会计算许多风控指标,这些风控指标是什么意思,他们有什么作用,我们挑几个金融领域比较常用的指标说说。1、vintagevintag...原创 2020-01-01 20:30:24 · 2413 阅读 · 0 评论 -
【采用】信用风险模型(申请评分、行为评分)与数据准备(违约期限、WOE转化)
巴塞尔协议定义了金融风险类型:市场风险、作业风险、信用风险。信用风险ABC模型有进件申请评分、行为评分、催收评分。————————————————————————————————————一、数据准备1、排除一些特定的建模客户用于建模的客户或者申请者必须是日常审批过程中接触到的,需要排除以下两类人:异常行为:销户、按条例拒绝、特殊账户;...原创 2019-12-30 15:27:30 · 511 阅读 · 0 评论 -
【风险管理】风控一二三
大家好,我是正阳。下面是一个故事,也是一个事实!如果你能留步阅读并有所感受,我想我们之间是有很多话可以交流的。1.故事背景1、风控模型开发团队。从项目负责人到项目组人员的配备,需要专业的数据挖掘、数据分析、建模能力,能够有效利用LR、XGB、LGB以及深度学习算法构建模型,制定ks大于0.4,auc大于80%的贷前评分模型。2、模型对接负责人。涉及到后期开发评分产品、画像产品、规则类产...原创 2019-12-30 14:49:41 · 931 阅读 · 0 评论 -
【采用】【风控系统】风控中心—京东基于Spark的风控系统架构实践和技术细节
转自:https://www.jianshu.com/p/9de45d2d16e6感谢博主!背景互联网的迅速发展,为电子商务兴起提供了肥沃的土壤。2014年,中国电子商务市场交易规模达到13.4万亿元,同比增长31.4%。其中,B2B电子商务市场交易额达到10万亿元,同比增长21.9%。这一连串高速增长的数字背后,不法分子对互联网资产的觊觎,针对电商行业的恶意行为也愈演愈烈,这其中,最典型...原创 2019-12-29 20:53:12 · 512 阅读 · 0 评论 -
【采用】无监督核心聚类算法
第一种 K-means现在,我们暂时不去考虑原始数据的形式,假设我们已经讲其映射到了一个欧式空间上了,为了方便,我们用二维空间来展示,如下图所示:图1 散点图单纯用肉眼看,我们的大脑很快就能判断出,这些散点大致属于三个集群,其中两个很紧凑,一个很松散。我们的目的就是区分这些散点从属于哪个集群,同样为了方便,我们把三个集群图上不同的颜色,如下图所示:图2 被标注颜色的散点图...原创 2019-12-25 14:48:00 · 238 阅读 · 0 评论 -
【待继续研究】如何运用机器学习技术构建可行的反欺诈检测方案?
反欺诈方向的实际应用很多,我有做过保险业反欺诈和零售快消业的欺诈检测,抛砖引玉的谈谈反欺诈项目的"道"和"术"。1.背景 - 为什么反欺诈检测难度很高?反欺诈项目很多情况下就是客户根本不知道什么是欺诈,什么不是。换句话说,对于什么是诈骗的定义很模糊。往小了说,反诈骗似乎是一个二分类问题(binary classification),但你仔细想想后会发现其实这是个多分类问题(multi-cl...原创 2019-12-25 14:48:10 · 242 阅读 · 0 评论 -
利用xgb筛选模型变量
做评分卡模型时要做特征分析,小编一般都是等频分箱。但是做一些策略时,小编经常要找出极端好和极端坏的客户所在的特征分组,于是经常要用到最优分箱来进行特征分析,以下是代码:%macro num_iv(data=,dvar=,splitsize=,maxbranch=,nsurrs=,method=,maxdepth=,dir=);*1.splitsize : 指定一个节点分割的最小观...原创 2019-12-25 14:42:04 · 894 阅读 · 0 评论 -
基于正则化的特征选择
1、特征选择简述降维,有时也可称为子空间学习,可以大致分为特征选择(feature selection)和特征提取(feature extraction)两大类,我们常说的主成分分析(PCA)、线性判别分析(LDA)、流形学习的代表—-局部线性嵌入(LLE)等,都是属于后者。特征提取,通常是将原始数据投影到一个新的空间,对于线性方法,就是学习一个投影矩阵W,使得投影后的数据最具有代表性信息(如P...原创 2019-12-25 14:42:11 · 1081 阅读 · 0 评论 -
【待继续研究】建模-听说你的坏样本不太够
今天的话题我们分为两部分,一部分是在建模前提如何处理坏样本过少的问题,第二部分是说模型建立之后,验证你这模型的效果的方法。首先样本过少分成两种过少的情况。一种是的的确确就是没啥坏样本,就是几十个,一百来个。另外一种就是相对于好样本,比较少,例如你有一百万的好样本,只有一万的坏样本,第二种就是属于样本不均衡的话题,这个网上的文献也都有好多,我这里就不展开了。样本过少之我只有几十个...原创 2019-12-25 14:42:50 · 591 阅读 · 0 评论 -
数据挖掘建模之常见概率分布总结
1、随机变量的定义:在一次实验中出现的所以结果次数M,将每一种结果映射到某种数值函数X(e)(e表示是某一次实验发生的结果),这种命映射的结果值称为随机变量。2、随机变量分为离散型和连续型的。3、分布律:只有离散型随机变量具有分布律,例如:离散型随机变量的x的分布律是0,1,2; 分别对应的概率是0.3, 0.4, 0.3。4、分布函数:该概念对于离散型和连续型都是适用的。F(...原创 2019-12-25 14:43:05 · 975 阅读 · 0 评论 -
python评分卡建模-卡方分箱
今天主要给大家讲讲卡方分箱算法ChiMerge。先给大家介绍一下经常被提到的卡方分布和卡方检验是什么。一、卡方分布卡方分布(chi-square distribution, χ2-distribution)是概率统计里常用的一种概率分布,也是统计推断里应用最广泛的概率分布之一,在假设检验与置信区间的计算中经常能见到卡方分布的身影。卡方分布的定义如下:若k个独立的随机变量Z1, ...原创 2019-12-25 14:43:16 · 552 阅读 · 0 评论 -
【采用】机器学习在金融大数据风险建模中的应用
本文在传统风险模型体系的基础上,嫁接逻辑回归和决策树模型建立T-L模型,并结合Random Forest模型完善模型结构。采用T-L核模型替代RF模型中的传统决策树模型,将RF模型和T-L核模型结合,建立了ScoreNet模型体系。既大大提升了风险模型区分能力,也保证了模型结构的清晰和评分广泛的应用。【关键词】大数据风控T-L模型RandomForestScoreNet1.选...原创 2019-12-25 14:43:54 · 922 阅读 · 0 评论 -
【机器学习】--模型评估指标之混淆矩阵,ROC曲线和AUC面积
一、前述怎么样对训练出来的模型进行评估是有一定指标的,本文就相关指标做一个总结。二、具体1、混淆矩阵混淆矩阵如图:第一个参数true,false是指预测的正确性。第二个参数true,postitives是指预测的结果。相关公式:检测正列的效果:检测负列的效果:公式解释:fp_rate:tp_rate:...原创 2019-12-25 14:43:58 · 489 阅读 · 0 评论 -
客户流失预警模型-GBDT模型
GBDT模型参数问题,这里我们以sklearn里面的GBDT为例来说,打开网址sklearn.ensemble.GradientBoostingClassifier。这里我们不关注GBDT里面的所有参数意义,只解释下在对金融数据建模调参时最常用的一些参数意义:GBDT框架的参数n_estimators: 分类树的个数,即Klearning_rate: 即每个弱学习器的权重缩减系数ν,也...原创 2019-12-25 15:56:08 · 1369 阅读 · 0 评论 -
【未来可能用到】关于模型的100个问答-part2
关于模型的100个问答-part2一距离过年还有8天,没错的,我跟你一样还没有休假。深圳这段时间是冷到刺骨了,就是冷到我今天才来更新,不要烦我每次都要说这段话,毕竟是生活中无处表达,只能在这抒发了。上周的part1,感谢留言区的大神的回答,也补充了我知识的缺陷,谢谢!今天能写多少的问题就写多少个问题哈,有些我是想到就写上去了,也希望在这篇文章也能有大神出没,这个系列就是把一些零碎的...原创 2019-12-25 15:56:11 · 202 阅读 · 0 评论 -
【未来可能用到】关于模型的100个问答-part1
一.我的因变量怎么定义?答:因变量具体如何定义,链接在这里建模准备一定要做的这几件事,这里链接包括取数怎么取都说的很清楚,请参考。其实申请卡的因变量已经被说烂了,主要是大部分问的是反欺诈模型的因变量怎么定义,我不会在这里明确跟你讲什么样的欺诈客户,我只是提供你一个思路,首先欺诈客户的性质是什么:没有还款意愿。那么没有还款意愿的客户会还几期就不还,就需要你去看你们公司的账龄分析表,你们对欺诈客户...原创 2019-12-25 15:56:15 · 198 阅读 · 0 评论 -
你知道你的模型可以为公司赚多少钱吗
模型分为两种:1、一刀切,大于这个阀值的通过,小于这个阀值的拒绝。2、分级,不确定的人工干预。一刀切这种模型,首先声明一点,在我的理解,应该没有一家公司有种到,就靠一个模型就完全判定客户好坏,给他放款与否,如果有这家公司的存在,请收下我的膝盖,请大神收我为徒。毕竟我所在的公司不敢这么干。一般这种一刀切的模型是放在很多的策略规则,反欺诈规则,各种验证规则差不多最后一步步骤的模型,模型...原创 2019-12-25 15:56:19 · 473 阅读 · 0 评论 -
【待继续研究】除了专家模型,这两大模型也被普遍应用于信用评估
66号学苑小书童:信用风险计量模型的基本技术路线是:利用借款者的特征指标和宏观经济变量,收集这些特征指标和宏观变量的历史数据,并将其应用于预测违约借款人与履约借款人。预测模型旨在评估未知借款者将来是否还款的信用价值,将潜在借款者的特征值输入模型,从模型中输出信用价值评估,从而可对潜在借款人进行信用评估。一般的评级方法可以分为专家经验判断法、参数模型和非参数模型。所谓的专家经验判断,就是...原创 2019-12-25 15:56:20 · 982 阅读 · 0 评论 -
你应该知道的建模的几种方法
携手ZRobot CEO乔杨为大家带来“企业级信用评分模型”系列课的第二课,本期课程乔杨老师主要介绍了建模的主要方法及在应用中需要注意的情况。以下是本次课程的部分干货。建模方法主要分为非监督式学习、监督式学习、以及一些其它的组合性的学习方法。如下图所示:下面我们对常用的建模方法做一下简单的分析:一、主成分分析、因子分析、变量类聚分析在实际建模过程中,主成分分析、因子分析、变量类...原创 2019-12-25 15:56:27 · 6432 阅读 · 1 评论 -
信用评分模型中的滚动率分析
信用风险模型,简单地说就是通过历史数据,抓取坏客户显著区别于正常客户的特征,并以此为标准去预测未来会有很大概率出现这种行为的人。所以在模型中“坏”的定义就显得尤为重要,也就是未来究竟想把哪些人拒之门外。我们曾经介绍过vintage分析(参见:《vintage分析,从酿酒到银行信用评分领域》),该方法主要用来判断客户展现好坏本性的时间因素,但是在判断客户的好坏程度方面,则需要引入另一种方法:滚动率分...原创 2019-12-25 15:56:30 · 399 阅读 · 0 评论 -
模型验证的常用“武器”—ROC和AUC peiyang
每次做完二值分类模型(eg: Logistic Regression, Decision Tree, Neural Network etc.),我们经常会面对一连串的模型验证指标,最常用的有ROC&AUC、Gini、PS、K-S等等。那我们不禁会问:1. 这个指标怎么定义?2.怎么实现指标计算?3.为什么用这个指标?4. 怎么用它评价模型?事实上,如果不明白这些评...原创 2019-12-25 15:57:30 · 892 阅读 · 0 评论 -
模型验证的常用武器k-s
首先我们来回顾一下AUC。AUC(Area Under Curve)被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。其中,ROC曲线的横轴为(1-特异性),即1-预测对的bad实例/实际的bad实例数;纵轴为敏感性,即预测对的good实例/实际good的实例。从而AU...原创 2019-12-25 15:56:34 · 750 阅读 · 0 评论 -
原来评分卡模型的概率是这么校准的!
在建立评分卡模型的时候,往往建模样本的好坏比和实际情况是不一致的,这是因为:1. 产品本身坏样本较少,为了提高评分模型的敏感程度,会对坏样本进行过抽样或者好样本进行欠抽样;2. 如果是乙方公司,好坏样本的来源可能不同,或者甲方爸爸并没有全量反馈样本表现,那么自然样本中的好坏比无法反映真实的情况。然而,用一个好坏比失真的样本建立好评分卡模型后,如果想要计算每个分数段的坏样本率...原创 2019-12-25 15:56:31 · 898 阅读 · 0 评论 -
多云回归分析入门(老阿姨要重新开始学习概率论了~)
在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。在上一章讲述了相关分析有关内容。本章介绍回归分析基本概念,回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。j基本概念:相关分析和回归分析都是研究变量间关系的统计学课题。在应用中...原创 2019-12-25 15:56:51 · 438 阅读 · 0 评论 -
建模准备一定要做的这几件事
建模准备这里我想跟大家分享五个点,就是在建模准备中需要做的五个方面。一、业务目的模型都是建立在业务目的上的,我们要根据不同的业务目的建立不同的模型,那么业务目的会从以下三个方面出发:1、客户。客户可以分为:有钱还的,没钱还但是心里想还的,没钱但是心里不想还的,以及有钱但是我就是不还的。后面两种不还钱的人,我们定义他们为欺诈客户,就是来借钱之前想着不还的,对于前两种以及后面两种客户,我们...原创 2019-12-25 15:56:58 · 582 阅读 · 0 评论 -
TOPSIS方法建模实例-逾期催收等级建模
本文主要分为三部分:第一部分,介绍原理和选择依据;第二部分,介绍topsis的方法建模过程;第三部分,建模总结。通过这三部分的来描述如何建立C卡催收评分模型。第一部分:我们先了解一下什么是Topsis方法。TOPSIS法(Technique for Order Preferenceby Similarity to Ideal Solution,)逼近理想解...原创 2019-12-25 14:45:22 · 2201 阅读 · 1 评论 -
互联网金融大数据风控模型,到底需要多大的数据?
python信用评分卡(附代码,博主录制)https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share互联网金融可以应用的大数据,首先体现在社交数据:微...原创 2019-12-25 14:45:26 · 356 阅读 · 0 评论 -
风控大咖教你四步开发风控模型
数信互融(IFRE):专注于互联网金融领域的风险量化、资产定价。基于互联网金融行业数据,结合互联网金融大数据,应用国际上专业化的分析手段,提供信用评估模型、决策引擎和资产证券化等服务,帮助互联网金融行业预测债权的风险溢价、实现资产定价以及解决互联网金融行业资产流动性问题。“你的模型准么?”“你的模型真的有用么?”“你的模型对风控有价值么?”在为P2P公司建立风控评分模型过程中,这是...原创 2019-12-25 14:45:31 · 1403 阅读 · 0 评论 -
常用数据挖掘算法简介
1.朴素贝叶斯朴素贝叶斯分类法是统计学分类方法,在特征条件独立的前提下,基于贝叶斯定理计算的隶属关系概率进行分类。朴素贝叶斯分类有着坚实的数学基础和稳定的分类效率,同时,分类模型需要估计的参数很少,对缺失数据不太敏感,算法也比较简单。从理论上讲,朴素贝叶斯分类模型与其他分类方法相比的误差率最小,但是实际上并非总是如此,这是因为朴素贝叶斯分类模型假设各属性之间相互独立,然而这个假设在...原创 2019-12-25 14:45:35 · 495 阅读 · 0 评论