数据挖掘竞赛题目 -- 电影推荐

最新推荐文章于 2024-02-11 17:00:00 发布

阳光洒落你窗前

最新推荐文章于 2024-02-11 17:00:00 发布

阅读量4.7k

点赞数 2

分类专栏：数据挖掘文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zrc199021/article/details/51670963

版权

数据挖掘专栏收录该内容

4 篇文章 0 订阅

订阅专栏

竞赛简介

通过对用户评分行为的分析，挖掘用户的兴趣及其变化规律，然后预测用户对其他电影的评分。

数据描述

本次比赛，我们提供了1千万左右的电影评分数据，每条评分记录都有时间戳（隐匿了具体时间，只保证顺序不变）。评分分为5级，1分最低，5分最高。

我们抽取了超过800万条评分记录，作为训练集，数据文件名为r1.train,字段格式为：

UserID::MovieID::Rating::Timestamp
用户i : : 电影a :: 评分 :: 相对时间
用户j : : 电影b : :评分: : 相对时间

说明：
1. UserID::MovieID::Rating::Timestamp ，四个字段分别代表：用户编号，电影编号，评分，相对时间；
2. 每一行为一个用户对一个商品的评分，行之间用“回车符”分隔；
3. 每一行各字段之间用“::”分隔。
我们还抽取了超过200万条评分记录，作为测试集。我们隐藏了用户对于电影的评分，仅保留用户和商品的评分关系，数据文件名为r1.test，字段格式为：
UserID::MovieID::Rating::Timestamp

用户i : : 电影a :: ** :: 相对时间
用户j : : 电影b : : **: : 相对时间

说明信息同训练集，Rating字段用“**”代替。
我们还提供了电影的详细信息，数据文件为movies.dat，格式如下：

MovieID::Title::Genres

MovieID是电影编号，Title是电影名称，Genres是电影类别信息。
类别信息含义如下：
• Action
• Adventure
• Animation
• Children’s
• Comedy
• Crime
• Documentary
• Drama
• Fantasy
• Film-Noir
• Horror
• Musical
• Mystery
• Romance
• Sci-Fi
• Thriller
• War
• Western

任务描述

参赛者需要写出推荐算法，预测测试集中用户对于电影的评分。

评价标准

评分算法: regression-new_rmse
算法解释: 采用均方根误差RMSE来评测整个算法的推荐准确度

$R M S E = 1 ∣ ∣ E P ∣ ∣ \sum (μ, α) \in E P (r μ α - r' μ α) 2 - - - - - - - - - - - - - - - - - - - - -  ⎷   其中 r μ α 是用户 μ 对 α 的实际评分, r' μ α 是参赛者对于 μ 对 α 评分的预测值$ $RMSE=\sqrt{\frac{1}{\begin{vmatrix} E^P \end{vmatrix}}\sum_{(\mu,\alpha)\in E^P}(r_{\mu \alpha}-r^{\prime}_{\mu \alpha})^2}\\其中r_{\mu \alpha}是用户\mu 对\alpha 的实际评分,r_{\mu \alpha}^\prime 是参赛者对于\mu 对\alpha 评分的预测值$

阳光洒落你窗前

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

阳光洒落你窗前 CSDN认证博客专家 CSDN认证企业博客

码龄16年

45: 原创

18万+: 周排名

222万+: 总排名

51万+: 访问

: 等级

3060: 积分

48: 粉丝

150: 获赞

43: 评论

464: 收藏

私信

关注

热门文章

分类专栏

数据库 1篇
打鸡血 4篇
参与的题目 2篇
扩展 3篇
书目 1篇
scala 16篇
算法 1篇
python 6篇
统计 2篇
数据挖掘 4篇
机器学习 5篇
Linux 4篇
前端 5篇
设计模式 1篇
sbt 2篇
spark 10篇
java 2篇
IDE 2篇
数据分析 2篇
git 1篇
效率 3篇

最新评论

数据挖掘竞赛题目 -- 文本分类
阿白_大攀: 你好该数据集测试集没有标签，能不能找到完整数据集
Markdown中公式的写法(Latex)
mileszhaof: 正态分布好像缺个负号
TF-IDF原理及使用
黑眼圈@~@: 我的数据计算出来TF-IDF的数值都是大于1的。用模拟数据大部分都是0<X<1之间的。好烦。实在不明白什么原因。
Spark集群中使用spark-submit提交jar任务包实战经验
lmw0320: 请教下，如果我是用pyspark交互环境下进入yarn模式，可以正常连接hbase获取数据。而如果用spark-submit提交完整的py代码，则会报这个资源不足的提示：WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources 进入pyspark的时候命令是pyspark --master yarn，我并没有指定相应的worker内存。。同样的，我用spark-submit提交的时候，也是没有指定： spark-submit --master yarn test.py 结果却一直无法获取到数据。RM的UI页面上，我也没有看到相应的任务在执行。。而我强制结束该spark-submit任务时，在Spark的 History Server的提交记录中却看到了该任务。。求指点下，如何解决。。
程序员的正能量：干IT的六大好处
qq_43646308: 冲冲冲

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。