数据挖掘竞赛题目 -- 电影推荐

竞赛简介

通过对用户评分行为的分析,挖掘用户的兴趣及其变化规律,然后预测用户对其他电影的评分。

数据描述

本次比赛,我们提供了1千万左右的电影评分数据,每条评分记录都有时间戳(隐匿了具体时间,只保证顺序不变)。评分分为5级,1分最低,5分最高。

  1. 我们抽取了超过800万条评分记录,作为训练集,数据文件名为r1.train,字段格式为:

    UserID::MovieID::Rating::Timestamp
    用户i : : 电影a :: 评分 :: 相对时间
    用户j : : 电影b : :评分: : 相对时间

    说明

    1. UserID::MovieID::Rating::Timestamp ,四个字段分别代表:用户编号,电影编号,评分,相对时间;
    2. 每一行为一个用户对一个商品的评分,行之间用“回车符”分隔;
    3. 每一行各字段之间用“::”分隔。
  2. 我们还抽取了超过200万条评分记录,作为测试集。我们隐藏了用户对于电影的评分,仅保留用户和商品的评分关系,数据文件名为r1.test,字段格式为:
    UserID::MovieID::Rating::Timestamp

    用户i : : 电影a :: ** :: 相对时间
    用户j : : 电影b : : **: : 相对时间

    说明信息同训练集,Rating字段用“**”代替。

  3. 我们还提供了电影的详细信息,数据文件为movies.dat,格式如下:

    MovieID::Title::Genres

    MovieID是电影编号,Title是电影名称,Genres是电影类别信息。
    类别信息含义如下:
    • Action
    • Adventure
    • Animation
    • Children’s
    • Comedy
    • Crime
    • Documentary
    • Drama
    • Fantasy
    • Film-Noir
    • Horror
    • Musical
    • Mystery
    • Romance
    • Sci-Fi
    • Thriller
    • War
    • Western

任务描述

参赛者需要写出推荐算法,预测测试集中用户对于电影的评分。

评价标准

评分算法: regression-new_rmse
算法解释: 采用均方根误差RMSE来评测整个算法的推荐准确度

RMSE=1EP(μ,α)EP(rμαrμα)2rμαμα,rμαμα

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值