算法比赛
幸运的蜗牛崽
这个作者很懒,什么都没留下…
展开
-
新闻推荐-task05
目录排序排序原创 2020-12-06 19:29:10 · 124 阅读 · 0 评论 -
新闻推荐竞赛-task04
目录制作特征和标签数据读取训练验证集划分获取历史点击和最后一次点击读取召回列表读取各种embedding读取文章信息对训练数据负采样特征工程用户历史行为相关特征用户和文章特征用户相关特征分析一下点击时间和点击文章的次数,区分用户活跃度分析一下点击时间和被点击文章的次数, 衡量文章热度特征用户的系列习惯用户的设备习惯用户的时间习惯用户的主题爱好用户的字数偏好特征用户特征直接读入文章特征直接读入总结制作特征和标签我们先捋一下基于原始的给定数据, 有哪些特征可以直接利用:文章的自身特征, category原创 2020-12-01 21:26:11 · 644 阅读 · 0 评论 -
新闻推荐竞赛-task03
目录多路召回工具faiss 使用召回YoutubeDNN召回itemcf recallusercf召回冷启动问题多路召回合并多路召回所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意图,在多路召回中,每个策略之间毫不相关原创 2020-11-29 22:40:47 · 623 阅读 · 0 评论 -
新闻推荐竞赛-task02
数据分析数据分析的价值可用的一些方法本次数据分析的结论数据分析的价值数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据,具体的文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。建议:当特征工程和模型调参已经很难继续上分了,可以回来在重新从新的角度去分析这些数据,或许可以找到上分的灵感。可用的一些方法数据预览直方图看分布用原创 2020-11-26 20:22:15 · 163 阅读 · 0 评论 -
新闻推荐竞赛-task01
这里写自定义目录标题赛题理解赛题理解究竟是在理解什么有了赛题理解之后,我们该做什么?赛题理解赛题链接https://tianchi.aliyun.com/competition/entrance/531842/introduction赛题理解究竟是在理解什么理解赛题:从直观上对问题进行梳理, 分析问题的目标,到底要让做什么事情, 这个非常重要理解数据:对赛题数据有一个初步了解,知道和任务相关的数据字段和数据字段的类型, 数据之间的内在关联等,大体梳理一下哪些数据会对我们解决问题非常有用,方便后面原创 2020-11-23 11:45:00 · 262 阅读 · 1 评论