机器学习
文章平均质量分 79
coconut_ya
平淡无奇的小白成长记录
展开
-
第15篇:新旧模型的交换集分析
在通常情况下,模型分只有高于我们预先设置的cut-off值,才会被审批通过,但为了持续验证风控策略的有效性,我们有时会设置0.5%~1%的universe Test 分流组,即此时分流组的客户不会执行模型策略而会被直接审批通过。如何进行合理的拒绝推断?例如,旧模型在线上决策的cut-off值是478,因此对于旧模型的模型分在478以上的客户,我们能从历史数据中获得其贷后逾期表现,表中最后两行就是我们需要预测的部分。在正常情况下,旧模型拒绝且新模型通过样本的坏账率要低于旧模型通过且新模型拒绝样本的坏账率。原创 2024-08-14 18:39:50 · 689 阅读 · 0 评论 -
第14篇:数据清洗和预处理
注意,在评分卡建模中,缺失值是一种非常重要的特征,往往不需要进行缺失值填补,而应直接作为特征进行变量编码或先分箱后编码,而其他领域的缺失值需要填补才可以满足机器学习模型的输入要求(只有少部分模型不需要处理缺失值可以直接建模,如决策树模型)。最简单的方式可以通过观察原始数据的前几条记录进行手动区分,当然也可以自动区分变量性质,如将数据读取成功后,判断数据类型,将整型或浮点型的数据直接划分为连续变量,而数据类型为字符串的为离散变量,如果为日期类型则分为日期变量。在数据集成时,要考虑集成后数据的完整性问题。原创 2024-08-10 16:27:44 · 890 阅读 · 0 评论 -
第十篇:什么是有监督模型训练?什么是无监督模型训练?
有监督学习使用标记过的数据,即每个样本都有对应的输出标签,而无监督学习只使用没有标签的数据。有监督学习通常用于解决分类和回归问题,而无监督学习则更多应用于数据的聚类和模式识别。如果想要预测目标变量的值就选择监督学习算法,如果不想预测目标变量的值,则使用聚类算法。在监督学习的过程中,我们只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。监督学习相对比较简单,机器只需从输入数据中预测合适的模型,并从中计算出目标变量的结果。它的目标是发现数据的内在结构,典型的无监督学习方法包括聚类和密度估计。原创 2024-05-09 16:30:57 · 277 阅读 · 0 评论 -
第三篇:系统入门决策树
从零开始了解决策树原创 2022-06-19 19:39:18 · 857 阅读 · 1 评论