赛题简介
赛题以新闻APP中的新闻推荐为背景,要求选手根据用户历史浏览点击新闻文章的数据信息预测用户未来点击行为,即用户的最后一次点击的新闻文章,测试集对最后一次点击行为进行了剔除。
赛题数据
赛题以预测用户未来点击新闻文章为任务,数据集报名后可见并可下载,该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,将会从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。
数据表
train_click_log.csv
:训练集用户点击日志
testA_click_log.csv
:测试集用户点击日志
articles.csv
:新闻文章信息数据表
articles_emb.csv
:新闻文章embedding向量表示
sample_submit.csv
:提交样例文件
字段表
Field | Description |
---|---|
user_id | 用户id |
click_article_id | 点击文章id |
click_timestamp | 点击时间戳 |
click_environment | 点击环境 |
click_deviceGroup | 点击设备组 |
click_os | 点击操作系统 |
click_country | 点击城市 |
click_region | 点击地区 |
click_referrer_type | 点击来源类型 |
article_id | 文章id,与click_article_id相对应 |
category_id | 文章类型id |
created_at_ts | 文章创建时间戳 |
words_count | 文章字数 |
emb_1,emb_2,…,emb_249 | 文章embedding向量表示 |
结果提交
提交前请确保预测结果的格式与sample_submit.csv
中的格式一致,以及提交文件后缀名为csv。其格式如下:
user_id,article_1,article_2,article_3,article_4,article_5
其中user_id
为用户id,article_1
,article_2
,article_3
,article_4
,article_5
为预测用户点击新闻文章Top5的article_id
依概率从高到低排序,例如:
user_id,article_1,article_2,article_3,article_4,article_5
200000,1,2,3,4,5
200001,1,2,3,4,5
200002,1,2,3,4,5
200003,1,2,3,4,5
评分方式
MRR(Mean Reciprocal Rank)
首先对选手提交的表格中的每个用户计算用户得分
其中, 如果选手对该user
的预测结果predict k
命中该user
的最后一条购买数据则s(user,k)=1
; 否则s(user,k)=0
。而选手得分为所有这些score(user)
的平均值。
推荐系统通用流程
赛题理解、数据分析、特征工程、召回模块、排序模块等。