【采访】腾讯社交广告高校算法大赛第二周周冠军——Groot 比赛经验及心得分享
经过又一周紧张又激烈的角逐
腾讯社交广告高校算法大赛产生了第二周周冠军
他们的名字叫Groot
三个冷静沉着的大男孩
低调的实力派,祝贺你们
小编对咱们的周冠军同学进行了短暂的采访
于是就有了下面这篇分享
…
周冠军 Groot
大家好,我们是Groot队,我是Groot队的队长wsss,还有两位队员,gjj,抓马,现在都是中国科学技术大学的研究生,很荣幸有机会与大家分享本次比赛的经验。最早有参加过Kaggle的Bosch Production Line Performance比赛,虽然成绩不理想,但也积累了一些经验,再加上大家的努力,侥幸在这次比赛拿了一次周冠军。
下面主要介绍一下我们在这次比赛的一些思路,希望能够帮助到大家:
- 训练集构造
和之前郭达雅大神的分享经验类似,比赛初期最重要的就是构建有效的训练集,能够尽量与线上情况同步,数据集划分方案大家可以参考腾讯广告算法大赛官方公众号推荐参考的几个比赛的信息。在构造好训练集合后,一般来说如果线上线下的差距比较大那有可能是你提取的特征有信息泄露,或者是你在对提交数据部分的特征提取与在训练集上面提取的特征方式有较大出入。
2、模型选择
现在可以选择的模型有很多,就目前而言我们选择的还是XGB,因为相比较其他的模型,它整个的训练反馈过程会比较迅速,有利于前期快速的对特征进行迭代,可能以后也可能会去尝试一些不同的模型,我们目前的主要精力是放在特征工程的部分。
3、特征工程