模型检验
没人关注
诗情画意藏心底,抑郁忧伤留昨天,即使没人关注,依然心平气和研究数据分析。分析路上多寂寞,一条大道走到底。
展开
-
建模流程
字段表构造并生成变量提取Y变量,并与X变量打通数据预处理a. EDA 探索性数据分析1) 数值型变量:n, nmiss, max, min ,mean, trim, median, std, quantile(1%- 99%)2) 分类变量:每个分类的计数n,nmiss,每个类别上Y的mean,stdb. 数据处理 数值型变量:缺失值标记,缺失值填充,特殊值替换,特殊值标记,1%和99%分位数修剪cap和floor(有界变量不需要) 分类变量:one-原创 2021-08-17 18:54:12 · 122 阅读 · 0 评论 -
相关系数
1、公式2、具体3、 评价原创 2021-06-10 17:50:53 · 190 阅读 · 0 评论 -
召回率(recall)
召回率:覆盖面的度量,度量有多少个实际正例被分为正例公式:TP/(TP+FN)原创 2021-06-10 16:43:10 · 495 阅读 · 0 评论 -
精确率、精度(precision)
精确率:被分为正例的实例中实际为正例的比例公式:实际正例/被分为正例 TP/(TP+FP)原创 2021-06-10 16:37:52 · 338 阅读 · 0 评论 -
AUC-评价一个二值分类器的优劣
AUC(area under the curve)是ROC曲线下的面积。所以,在理解AUC之前,要先了解ROC是什么。而ROC的计算又需要借助混淆矩阵,因此,我们先从混淆矩阵开始谈起。混淆矩阵假设,我们有一个任务:给定一些患者的样本,构建一个模型来预测肿瘤是不是恶性的。在这里,肿瘤要么良性,要么恶性,所以这是一个典型的二分类问题。假设我们用y=1表示肿瘤是良性,y=0表示肿瘤是恶性。则我们可...原创 2020-02-26 12:33:58 · 1454 阅读 · 0 评论 -
IV值与WOE-二元分类特征的选择
一、应用场景WOE(weight of evidence)和IV(Information Value)主要用来判断变量的预测强度,比如判断用户收入对用户是否会发生逾期的预测强度。因此,两个值的使用主要是在有监督的分类问题中,具体可以细化到如下方面:指导变量离散化。在建模过程中,时常需要对连续变量进行离散化处理,如将年龄进行分段。但是变量不同的离散化结果(如:年龄分为[0-20]还是[0-15...原创 2020-02-26 00:40:21 · 1109 阅读 · 0 评论 -
PSI--检测不同分数段人群的稳定性
一、psi=(A-B)*LN(A/B)PSI:累加二、结论原创 2019-12-05 17:58:21 · 296 阅读 · 0 评论 -
KS值
KS(Kolmogorov-Smirnov)值: 对模型风险区分能力进行评估指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。KS的计算步骤如下:评分切断,从小到大排序(尽量平分)计算每个评分区间的好坏账户数。计算每个评分区间的累计好账户数占总好账户数比率(good%)和累计坏账户数占总坏账户数比率(bad%)。计算每个评分区间...原创 2019-11-27 17:34:24 · 6096 阅读 · 0 评论