这期我们请到了去年腾讯广告算法大赛的亚军——来自电子科技大学的徐安同学。千字比赛心得,让你轻松把握比赛,避免踩坑。
大家好,我是电子科技大学的徐安,很荣幸能有机会和大家分享我在腾讯广告算法大赛中的一些比赛心得。我们的队伍名是三只小蜜蜂,队员分别为魏梦溪、李达和我。我们很幸运地在去年的腾讯广告算法大赛中获得了亚军。
在这里,我想和大家分享一下我们在比赛中遇到的问题以及一些建议。
特征
特征工程对于比赛成绩影响很大。在很多比赛中,找到一个关键特征,往往可以提升很多名次。我在这次比赛中主要负责特征工程。我在做特征工程的时候主要依靠两条线索。
一条从问题本身出发,比如对于点击率预估问题,考虑用户会怎么想,用户会关心什么,同时也考虑商品适合哪些用户,购买这些商品的人有哪些共同点。
另一条从特征类型出发,比如考虑做哪些特征交叉;哪些特征在分布上非常诡异,需要做一些预处理;哪些特征是多值类别特征,需要做特殊操作;哪些特征的量纲一致,可以做比较以及求和。在做特征的时候,尽量做得细致全面,不要在比赛初期考虑哪些特征会对模型产生副作用就放弃采用。因为只要严格保证自己的特征在训练集、验证集和测试集是一致的(特征的含义严格一致,同时特征的取值分布也基本一致),理论上这些特征就都不会对模型产生副作用(对于极个别无法保证一致的特征,可以在公榜上实验。换榜时