新闻推荐系统【DAY1】

赛题简介

赛题以新闻APP中的新闻推荐为背景,要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为,即用户的最后一次点击的新闻文章,测试集对最后一次点击行为进行了剔除。

赛题数据

赛题以预测用户未来点击新闻文章为任务,数据集报名后可见并可下载,该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。

数据表

train_click_log.csv:训练集用户点击日志
testA_click_log.csv:测试集用户点击日志
articles.csv:新闻文章信息数据表
articles_emb.csv:新闻文章embedding向量表示
sample_submit.csv:提交样例文件

字段表
FieldDescription
user_id用户id
click_article_id点击文章id
click_timestamp点击时间戳
click_environment点击环境
click_deviceGroup点击设备组
click_os点击操作系统
click_country点击城市
click_region点击地区
click_referrer_type点击来源类型
article_id文章id,与click_article_id相对应
category_id文章类型id
created_at_ts文章创建时间戳
words_count文章字数
emb_1,emb_2,…,emb_249文章embedding向量表示

结果提交

提交前请确保预测结果的格式与sample_submit.csv中的格式一致,以及提交文件后缀名为csv。其格式如下:

user_id,article_1,article_2,article_3,article_4,article_5

其中user_id为用户id,article_1,article_2,article_3,article_4,article_5为预测用户点击新闻文章Top5的article_id依概率从高到低排序,例如:

user_id,article_1,article_2,article_3,article_4,article_5
200000,1,2,3,4,5   
200001,1,2,3,4,5
200002,1,2,3,4,5
200003,1,2,3,4,5

评分方式

MRR(Mean Reciprocal Rank)首先对选手提交的表格中的每个用户计算用户得分
在这里插入图片描述
其中, 如果选手对该user的预测结果predict k命中该user的最后一条购买数据则s(user,k)=1; 否则s(user,k)=0。而选手得分为所有这些score(user)的平均值。

推荐系统通用流程

赛题理解、数据分析、特征工程、召回模块、排序模块等。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值