大神干货:冠军选手分享解题思路,助你轻松突围初赛

2020年腾讯广告算法大赛的初赛的帷幕已然拉开,新老选手们正面临着全新数据集的挑战。在大家努力刷分的紧张时刻,我们为大家邀请到2019年腾讯广告算法大赛冠军、数据竞赛爱好者,也是本次大赛的参赛选手——鱼遇雨欲语与余,请他分享对本次赛题的一些解读,帮助大家拓宽思路,快速提高成绩,顺利突围初赛!

在这里插入图片描述

大家好,我是鱼遇雨欲语与余,毕业于武汉大学,人民邮电出版社签约作者,2019年腾讯广告算法大赛冠军。很高兴再次参加今年的腾讯广告算法大赛。

本届算法大赛的题目为“广告受众基础属性预估”,赛题提供了90天用户点击广告行为日志及广告的基本属性,让大家预测用户性别和年龄。为了帮助大家快速理解本次赛事的题目,我和大家简单分享一下我对于本次赛题数据的理解和一些解题思路。

  1. 赛题数据

赛题数据其实还是比较干净清爽的,用户基本属性信息只需要我们预测性别和年龄,其余的都是用户点击日志和广告相关信息。初期需要去理解每个变量的含义,比如creative_id广告素材可能由文案、图片和视频组成,一个广告包含多个广告素材,因此广告素材生成的流程也需要加以了解。“比较”是影响广告投放的重要环节之一,首先结合用户画像和卖点提炼,然后确定使用场景,最后进行素材的筛选和加工。

对数据和业务的基本认识可以帮助我们深入理解赛题,挖掘更多有用信息。

  1. 解题思路

用户的历史点击行为可以反映其属性特点,比如男性偏爱电子产品、游戏等,女性则更偏爱服饰、化妆品等,所以从点击序列中挖掘信息更为重要。那么如何挖掘序列信息呢,这里的方法就比较多了,下面逐个介绍。

(1)one-hot

直接展开,保留所有信息,300多万维,可以直接放弃了。

(2)Tfidf

NLP中常用的做法,将用户点击序列中的creative_id或者ad_id集合看作一篇文档,将每个creative_id或者ad_id视为文档中的文字,然后使用tfidf。当然这也下来维度也非常高,可以通过参数调整来降低维度,比如sklearn中的TfidfVectorizer,可以使用max_df和min_df进行调整。

(3)Word2vec

把每个点击的creative_id或者ad_id当作一个词,把一个人90天内点击的creative_id或者ad_id列表当作一个句子,使用word2vec来构造creative_id或者ad_id嵌入表示。最后进行简单的统计操作得到用户的向量表示。这种序列简单聚合导致信息损失,显得是非常的粗糙,需要进一步引入attention等方法。

上述方法可以直接使用传统的GBDT相关模型进行,1.3应该没问题。下面可以考虑序列建模方式。例如RNN/LSTM/GRU,这类方法将用户行为看做一个序列,套用NLP领域常用的RNN/LSTM/GRU方法来进行建模。

最后祝各位取得优异成绩。

———————————————————————

收获了大神选手的心得分享后,你的解题思路有没有更加清晰呢?希望各位选手放平心态,继续加油。祝愿各位突围成功!

了解更多赛事相关信息

扫码加入大赛官方QQ群

或搜索群号:1094257162

和小伙伴一起解锁更多内容
在这里插入图片描述
5月18日晚19:30,算法大赛评委大咖将齐聚直播间分享**《后疫情时代的“智”者未来》**,大咖面对面传授的机会不可多得!

感受大咖们的思想碰撞,点击下方链接,一键预约加入直播!
后疫情时代下,“智”者如何自处? - 腾讯云大学

点击下方链接,报名参赛赢取现金大奖

官方报名入口:
2020腾讯广告算法大赛

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值