Kaggle宠物收养比赛亚军复盘

本文复盘了Kaggle宠物收养比赛,该比赛涉及图像、文本和结构化数据的多模态分析。作者讨论了数据处理、特征工程,包括图像的预训练模型特征提取、文本的TF-IDF和主题模型、元数据的分析,以及利用Groupkfold避免数据泄漏。模型方面,采用了stacking架构,结合了多种模型如LightGBM、XGBoost、CatBoost、RNN+DeepFM,并通过岭回归进行融合。最终,作者获得了比赛的亚军。
摘要由CSDN通过智能技术生成

写在前面

这个比赛是在19年4月结束的,已经过去一段时间。完赛时我是季军,但后面由于冠军大哥作弊被发现并除名,我在排行榜上的位置也变成了亚军。这个比赛很有特点,是难得一见的“多模态数据”比赛,也是我唯一的Solo金牌,初学者应该能从中学到不少东西。

正文的内容其实也是去年写的,但原来是放在自己的博客里,一共也没几个人看过。后面我会把之前的一些复盘都发出来,希望可以启发到有需要的人。

赛题概况

这是一次很有意思的比赛,主办方是马来西亚的动物慈善组织PetFinder。比赛是要根据小动物的信息来预测他们多久之后会被好心人收养。这次比赛的数据种类非常的丰富,基础数据集包含了了图像数据、文本数据和结构化数据,通过不同的数据类型的组合,可以探索很多有意思的算法。而且这次比赛允许使用外部数据,只要在官方的论坛里把你使用到的数据公开给所有的参赛者,你就可以进行使用了。我一开始以为这种方式会让这个比赛变得比较蛋疼,但到最后几天我发现,通过观察排在前面队伍使用的外部数据,可以对我们自己的模型产生一些帮助:P。

PetFinder网站&#
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值