竞赛简介
通过对用户评分行为的分析,挖掘用户的兴趣及其变化规律,然后预测用户对其他电影的评分。
数据描述
本次比赛,我们提供了1千万左右的电影评分数据,每条评分记录都有时间戳(隐匿了具体时间,只保证顺序不变)。评分分为5级,1分最低,5分最高。
我们抽取了超过800万条评分记录,作为训练集,数据文件名为r1.train,字段格式为:
UserID::MovieID::Rating::Timestamp
用户i : : 电影a :: 评分 :: 相对时间
用户j : : 电影b : :评分: : 相对时间说明:
- UserID::MovieID::Rating::Timestamp ,四个字段分别代表:用户编号,电影编号,评分,相对时间;
- 每一行为一个用户对一个商品的评分,行之间用“回车符”分隔;
- 每一行各字段之间用“::”分隔。
我们还抽取了超过200万条评分记录,作为测试集。我们隐藏了用户对于电影的评分,仅保留用户和商品的评分关系,数据文件名为r1.test,字段格式为:
UserID::MovieID::Rating::Timestamp用户i : : 电影a :: ** :: 相对时间
用户j : : 电影b : : **: : 相对时间说明信息同训练集,Rating字段用“**”代替。
我们还提供了电影的详细信息,数据文件为movies.dat,格式如下:
MovieID::Title::Genres
MovieID是电影编号,Title是电影名称,Genres是电影类别信息。
类别信息含义如下:
• Action
• Adventure
• Animation
• Children’s
• Comedy
• Crime
• Documentary
• Drama
• Fantasy
• Film-Noir
• Horror
• Musical
• Mystery
• Romance
• Sci-Fi
• Thriller
• War
• Western
任务描述
参赛者需要写出推荐算法,预测测试集中用户对于电影的评分。
评价标准
评分算法: regression-new_rmse
算法解释: 采用均方根误差RMSE来评测整个算法的推荐准确度
RMSE=1∣∣EP∣∣∑(μ,α)∈EP(rμα−r′μα)2−−−−−−−−−−−−−−−−−−−−−⎷其中rμα是用户μ对α的实际评分,r′μα是参赛者对于μ对α评分的预测值