信用风险评估
文章平均质量分 59
心雨心辰
这个作者很懒,什么都没留下…
展开
-
信用风险评估评分卡 之 极端值
极端值的产生: 1.数据生成的过程来源于某些未知的函数形式的分布,很难确定哪些观测值是极端值; 2.在获取原始业务数据过程中,产生差错。极端值的识别: 1.为每个变量(feature)设定一个正常的取值范围,超过一定范围视为极端值。如连续feature,这些范围设定为均值+/-3倍标准差。该方法只考虑单个变量。 2.用已知数据拟合模型,严重偏离拟合模型的样本/观测值视为极端值。 3.用聚原创 2016-11-07 14:12:04 · 2011 阅读 · 0 评论 -
信用风险评估之 预测力指标(筛选特征)
在建模时,被用来预测的变量(即feature)相互间不能有很强的相关性,最好完全不存在相关性。 评判变量间的预测力指标有皮尔森相关系数,斯皮尔曼相关系数,皮尔森卡方统计量,概率比,信息值等。1.皮尔森相关系数pearson 连续变量x,y(两列feature), 皮尔森相关系数ρ:取值区间[-1,1]。 0表示无相关性即相互独立,越接近于0,相关性越小; -1为负的强相关性; +1为正的原创 2016-11-08 15:35:49 · 7107 阅读 · 1 评论 -
数据准备--降低基数,连续变量分段
数据准备非常重要: 1.从不同的渠道收集数据; 2.清理数据中意外错误或被认为是极端值的取值; 3.生成衍生的变量(feature)。在数据处理过程,需要进行的操作:当名义变量的取值大于12个,考虑降低基数:1>将相同含义的变量合并; 2>出现频率下的类别被合并为一个新的类别,并给予一个合理的标识,如other。 3>合并变量的类别使得某些预测力指标最大化。 下面是采用决策树的方法,原创 2016-11-21 16:04:32 · 5823 阅读 · 0 评论