![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
vitacode
没有对象,如何面向,欠过拟合,调优探索。
展开
-
风控比赛第五弹
模型融合:不知不觉来到了模型融合,想到天池的风控好多天没有提交了,决定提交一下,最新成绩是0.7389,rank11。说来惭愧特征工程方面就制作了一类欺诈率特征,总共10个,然后使用lgb跑了下0.7399(线上0.7387)cat跑了下0.73916,0.8和0.2加权融合0.7389,融模有2个万的收益,有点小。模型融合和特征工程:说这之前先谈下昨天下午的翼支付风控决赛答辩,全程看下来决赛里面还是有不少大佬的思路值得学习。在模型融合方面有些思路值得借鉴。1.鲁棒性<——>拟合效果原创 2020-09-27 13:46:55 · 196 阅读 · 0 评论 -
风控比赛第四弹
模型调参一、贪心调参二、网格调参三、贝叶斯调参一、贪心调参对于模型中的参数逐一调参,只关注每个参数当前的最优结果:举个栗子,下面是我使用的祖传lgb参数(线下0.7366)为基础开始——贪心调优,原谅我几乎不刻意调参(其实是不会快速简便的方法):model = lgb.LGBMClassifier(objective='binary', boosting_type='gbdt', num_le原创 2020-09-24 20:36:10 · 158 阅读 · 0 评论 -
NLP匿名化新闻分类问题理解
数据:新闻文本,训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。数据已按照字符级别进行匿名处理,防止选手在测试集中进行手工标注——这也构成了本赛题需要突破的一个点。目的:新闻分类,多分类问题,共计14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。评级标准F1值,综合考虑了召回率和精准度。如何提取特征+构建模型?由于文本已经经过处理,中文分词无法直接使用,特征如何提取,模型构建SVM,XGBoost,LightGBM等。出题方.原创 2020-07-20 20:35:00 · 384 阅读 · 0 评论 -
机器学习概述区分
正在学习机器学习,写下博文梳理下思路机器学习分为:1. 有监督学习2. 无监督学习3. 强化学习三者区别:1.输入数据带有标签——有监督学习;2.输入数据不带标签——无监督学习;3.数据需要从环境中自行探索获得(即不存在带有标签数据的输入)且环境可以对每个行动提供反馈(可以理解探索到的的数据此时又带有标签了)——强化学习进一步分解:监督学习可以根据标签类型区分:①标签离散——...原创 2020-02-20 09:40:22 · 211 阅读 · 0 评论