![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
天池大赛
文章平均质量分 91
bwgg
Java研发、算法研发。
本博客有无数彩蛋等你发现!
展开
-
风险大脑-支付风险识别天池大赛(五)处理模型输出并提交结果、“榜上有名”
Ps:若不参加比赛的同志们可忽略此篇。官方大赛提交要求:模型得到的结果: 随机森林以及其他分类算法模型会输出当前的预测值和结果为此值的概率。如下所示: 假定这里我们规定正样本为0(即无风险的支付行为),负样本为1(即有风险的支付行为)。第一个概率表示预测结果为正样本的概率,第二个概率表示预测结果为负样本的概率,若预测结果为正样本的概率小于0.5,则表示该样本是正样本的概...原创 2018-07-09 18:44:32 · 1300 阅读 · 0 评论 -
蚂蚁金服风险大脑-支付风险识别天池大赛 —— 赛后总结
周末这几天都忙着东奔西跑,比赛也在周末结束了,故现来总结一波。这次报名蚂蚁金服风险大赛主要是为了做个案例,用商业发行版TDH大数据平台社区版+可拖拽式快速人工智能平台Sophon来完成。 数据预处理(编码2分钟+运行5分钟): 上传至HDFS,用分布式SQL引擎兼数据仓库来完成用于分析的海量业务数据存储。用Java处理数据,得到我们需要的格式。至于...原创 2018-07-09 19:12:05 · 4962 阅读 · 3 评论 -
风险大脑-支付风险识别天池大赛(一)数据预处理
大赛提供的所有数据信息是包含在引号里面的(“xxxx”),这样在后续输入模型使用数据前需要做字符串索引。但由于数据量也比较大(将近100万条数据),字符串索引算子会异常慢(被坑回来补上这篇博客),所以这里直接将引号去除,便于后续直接以Double数值类型导入到Inceptor(hive)数仓中,提供给模型训练。 PS:之前试过用SubLine直接替换,按道理它是文本处...原创 2018-06-28 15:47:42 · 2672 阅读 · 12 评论 -
风险大脑-支付风险识别天池大赛(二)数据存储及检查
本次想把过程写的详细些,所以本节和上一节讲了如何充分利用大数据平台处理数据,如何利用最有效的工具进行数据存储、处理、分析。另外这次准备用Inceptor(分布式SQL引擎,可以理解为Hive数仓)、Sophon、R语言来完成。 在下一节,我会将建模过程思路和大家分享。 本节详细步骤如下。一、上传数据文件至HDFS目录。 训练数据和AB榜测试数据。...原创 2018-06-28 17:56:29 · 1472 阅读 · 0 评论 -
风险大脑-支付风险识别天池大赛(三)快速建立模型(含调参思路)
这一节开始建立模型,在建模之前,我们先梳理一下思路: 思路: 1、首先选出只带标签的数据(有风险和无风险的),进行分析,建立一个 recall rate 风险交易召回率较高的二分类模型。2、接着在无标签的数据上应用此模型,打上标签,并与之前有标签的数据进行合并,形成最终完整训练样本。3、将新的训练样本送入模型,得到最终模型。4、应用测试数据,得到结果...原创 2018-07-03 16:04:30 · 1984 阅读 · 0 评论 -
风险大脑-支付风险识别天池大赛(四)处理无标签数据、建立完整模型
上一篇博客讲了利用随机森林模型,在有标签的交易数据基础上建立模型,并简要讲了随机森林一些参数的调优,这篇将会对无标签数据进行处理,并与原训练数据合并送入随机森林模型学习,得到最终模型。并会将测试数据接入,得到最终结果,并写入数据库。 本次大赛,整体思路流程图如下:处理已被标记的无标签数据:input_data_prediction <- sophonR.getI...原创 2018-07-04 11:13:52 · 1321 阅读 · 0 评论 -
风险大脑-支付风险识别天池大赛(番外篇)trick思路
默认无标签的都是黑样本。 因为案例背景中有说道,因为风控系统会基于对交易的风险判断而失败掉很多高危交易,这些交易因为被失败了往往没有了标签,而这部分数据又极其重要。所以这里我们可以相信既然系统都判断你是高危交易了,我就直接认为你是风险交易好了。相信蚂蚁金服线上风险评估系统,没毛病吧,哈哈。 加上这次共994731条数据,有标签的990006条(16847条有风险,9...原创 2018-07-05 16:46:08 · 1391 阅读 · 0 评论