腾讯广告算法大赛高手云集,在围观比赛的过程中你一定也有了不少心得体验!想要分享这份感受却无处诉说?本期我们接受了来自大赛粉丝的投稿,让我们来一起看看萌新们都有什么收获吧!
作为一个数据竞赛经验很少的小萌新,我想谈一谈我的感受。在上一届腾讯广告算法大赛期间,我还没有开始尝试参加数据竞赛,对于各类算法的了解只停留在理论上。竞赛落下帷幕后,我才开始参加数据竞赛,逐渐尝试特征工程,熟悉xgboost、lightgbm等各个框架。从代码到原理,各个竞赛给了我很大的帮助。这里我想谈一谈在学习上一届腾讯广告算法大赛开源资料时我的感受。
数据方面
以往参加过的比赛数据量都不大,笔记本的内存就可以驾驭。但是也存在一些问题,一方面,企业采集到的数据往往质量不是很好;另一方面,主办方数据预处理的不当,也会对特征提取、模型建立造成一些干扰。有时还会遇到全匿名的数据,企业对于数据含义的隐瞒会对特征工程造成很大的阻碍。
腾讯广告算法大赛的数据,主要的特点体现在数据量大和数据质量很好上。虽然数据量会让我们这些没有机器的小萌新望而却步,但是数据来源于真实场景,数据质量的优异使得选手对于模型和算法的测试更加顺利。数据质量原因造成的抖动干扰较小。
通过开源,也可以学习到处理大数据时节约内存的Trick,运用流式和分块的方式处理数据,在代码优化方面很有帮助。
模型方面
以往参加过的比赛几乎是lgb和xgb的天下。拿到数据后,几乎只要按着EDA->特征工程(业务特征和统计特征)->建立模型->调参->模型融合的步骤逐步尝试,就可以得到不错的结果。但是对于腾讯广告大赛的赛题,需要更多专业知识来支撑。排名较前的开源中不再会出现大部分都是lgb的状况了。
令我感悟较深的是,腾讯广告算法大赛并不是一个树模型独领风骚的普通比赛。通过参加腾讯广告大赛,可以学到很多知识,比如CTR相关的xdeepfm、nfm等较新的模型。在参与大赛的过程中,可以重读论文,再构建论文的框架并结合数据本身进行修改。我认为,不支持在lgb和xgb的基础上无脑堆特征,使得参赛者以更加积极的方式参与其中,正是这场比赛的魅力所在。
其他想说的
竞赛主题方面,国内举办的CTR比赛可谓是数不胜数,腾讯广告大赛无疑是质量最高的比赛之一。深入思考业务场景的时所得到的特征构建方法,在以后的同类型比赛中依然适用,诸多大佬优秀的思路在以后的比赛中仍然值得回顾。在一系列算法比赛中,积攒trick和规则的珍贵经验是十分有益的。
另外,腾讯广告算法大赛这个平台给了在校学生交流的渠道。还没开赛就认识了许多大佬,可以说是非常开心了。看群里各位大神的算法思路,收获颇丰。腾讯广告大赛即将开始,作为一个小萌新,希望在参赛过程中,能学(拿)到更多知(Q)识(币)。