金融风控数据挖掘
vitacode
没有对象,如何面向,欠过拟合,调优探索。
展开
-
风控比赛第五弹
模型融合: 不知不觉来到了模型融合,想到天池的风控好多天没有提交了,决定提交一下,最新成绩是0.7389,rank11。 说来惭愧特征工程方面就制作了一类欺诈率特征,总共10个,然后使用lgb跑了下0.7399(线上0.7387)cat跑了下0.73916,0.8和0.2加权融合0.7389,融模有2个万的收益,有点小。 模型融合和特征工程: 说这之前先谈下昨天下午的翼支付风控决赛答辩,全程看下来决赛里面还是有不少大佬的思路值得学习。在模型融合方面有些思路值得借鉴。 1.鲁棒性<——>拟合效果原创 2020-09-27 13:46:55 · 187 阅读 · 0 评论 -
风控比赛第四弹
模型调参一、贪心调参二、网格调参三、贝叶斯调参 一、贪心调参 对于模型中的参数逐一调参,只关注每个参数当前的最优结果:举个栗子,下面是我使用的祖传lgb参数(线下0.7366)为基础开始——贪心调优,原谅我几乎不刻意调参(其实是不会快速简便的方法): model = lgb.LGBMClassifier(objective='binary', boosting_type='gbdt', num_le原创 2020-09-24 20:36:10 · 155 阅读 · 0 评论 -
风控比赛第三弹
特征工程: 对于结构化数据,可以考虑直接放到模型当中暴力学习,但没有万能的模型(或许以后会有,能够实现数据自动提取清洗,特征构建优化哈哈哈)比如本次天池的这此风险预测,仅仅构造一个地域欺诈率特征,使用LGB模型可达到0.7346的成绩,想进一步提升就要深入了解数据,进行特征工程。 学习内容: 提示:这里可以添加要学的内容 例如: 数据简单预处理: a. 缺失值的填充 b. 时间格式处理 c. 对象类型特征转换到数值 异常值处理: a. 基于3segama原则 b. 基于箱型图 数据分箱 a. 固定宽度分原创 2020-09-21 18:35:39 · 92 阅读 · 0 评论 -
风控比赛第二弹
1.数据分析是结构化数据建模前的重要部分,但是这一部分之前很少做,一直是暴力学习,把所有的特征全部扔到模型当中。原创 2020-09-18 13:45:27 · 179 阅读 · 0 评论 -
风控比赛第一弹
1.金融风控比赛是典型的结构化数据挖掘比赛,通过表格化数据进行特征提取,目标编码,选择模型实现风险用户识别。 2.特征提取方面,除了常见的特征构造加减乘除,利用NLP的知识实现目标编码逐渐体现出优势,如:TF-IDF,Word2vector,都表现出了较好的优势。 3.模型选择方面,LightGBM,Catboost,Xgboost都表现较好,前两者运行更快,且能自动处理类别特征,处理缺失值。由于是决策树算法,通常在研究单个特征时,不需要进行归一化处理,但是在cross时需要考虑归一化。 4.模型的融合可以原创 2020-09-12 22:46:14 · 543 阅读 · 0 评论