MovieLens推荐系统数据集官方文档+解释

参见和下载地址:https://grouplens.org/datasets/movielens/


MovieLens

       GroupLens Research已从MovieLens网站(http://movielens.org)收集并提供评级数据集。根据集合的大小,在不同的时间段收集数据集。在使用这些数据集之前,请查看其README文件以获取使用许可证和其他详细信息。

帮助我们的研究实验室:请对MovieLens数据集进行简短的调查 https://docs.google.com/forms/d/e/1FAIpQLSeCkt7cD5j7QexQZmY1cDHNMFUSaAzv_yPPVhwz1RNTh0Xa0Q/viewform?c=0&w=1 

recommended for new research

MovieLens 20M Dataset

稳定的基准数据集。138,000名用户对27,000部电影打的2000万个评级和465,000个标签。包括标签基因组数据,在1,100个标签上有1200万个相关性分数。 2015年4月发布;更新10月2016以更新links.csv并添加标签基因组数据。

~README.html  : http://files.grouplens.org/datasets/movielens/ml-20m-README.html
~ml-20m.zip(大小:190 MB,校验和)

recommended for education and development

MovieLens最新数据集

这些数据集将随时间而变化,不适合报告研究结果。我们将保持下载链接稳定以进行自动下载。我们不会存档或提供以前发布的版本。

小:对于9,000部电影,600个用户产生出100,000个评级和3,600个标签。上次更新时间:9/2018。

~README.html    : http://files.grouplens.org/datasets/movielens/ml-latest-small-README.html
~ml-latest-small.zip(大小:1 MB)

全部:对于58,000部电影,280,000个用户产生出27,000,000个评级和1,100,000个标签。包括标签基因组数据,包含1,100个标签的1400万个相关性分数。上次更新时间:9/2018。

~README.html   : http://files.grouplens.org/datasets/movielens/ml-latest-README.html
~ml-latest.zip(大小:265 MB)
 

older datasets

MovieLens 100K数据集

稳定的基准数据集。来自1700部电影,1000名用户的100,000个评分。发布于4/1998。

~README.txt   :http://files.grouplens.org/datasets/movielens/ml-100k-README.txt
~ml-100k.zip(大小:5 MB,校验和)
~解压缩文件的索引   :http://files.grouplens.org/datasets/movielens/ml-100k/

MovieLens 1M数据集

稳定的基准数据集。 4000部电影的6000名用户获得100万评级。 2003年2月发布。

~README.txt
~ml-1m.zip(大小:6 MB,校验和)

MovieLens 10M数据集

稳定的基准数据集。 72,000个用户对于10,000部电影,进行了1000万个评级和100,000个标签。发布于2009年1月1日。

~README.html
~ml-10m.zip(大小:63 MB,校验和)

MovieLens标签基因组数据集

对于于10,000部电影的1,100个标签池中获得1100万个计算标签 - 电影相关性分数。发布于2014年3月。

还可以考虑使用MovieLens 20M或最新数据集,这些数据集还包含(更新的)标签基因组数据。

~README.html
~tag-genome.zip(大小:41 MB)
 


数据集解movieId, title, genres 

其中均包含四个文件:movies.csv  , links.csv  , ratings.csv  ,tags.csv

movies.csv (电影文件)

movieId:电影id 
title:电影标题 
genres:电影的题材(多种题材用|分割)

links.csv(链接文件)

movieId:电影在movielens上的id,通过https://movielens.org/movies/(movieId)访问
imdbId:电影在imdb网站上的id,通过http://www.imdb.com/title/(imdbId)访问
tmdbId:电影在themoviedb上的id,通过http://www.imdb.com/title/(tmdbId)访问 

ratings.csv (评分文件)

userId: 用户id 
movieId: 电影id 
rating: 用户评分。5分制,0.5 stars - 5 stars,以0.5为间隔
timestamp: Unix时间戳,十位,精确到秒

tags.csv(标签文件)

userId: 用户id 
movieId: 电影id 
tag: 表示用户在某个时间为某个电影标记的标签,即分类
timestamp: 同上时间戳

 

  • 5
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
Movielens是一个流行的电影推荐系统数据集,用于评估和研究各种推荐算法的性能。你可以通过以下步骤下载Movielens数据集: 1. 访问Movielens官方网站。在搜索引擎中搜索"movielens数据集",你会找到Movielens网站的链接。 2. 注册一个用户账户。在网站上注册一个账户,提供所需的信息,并且同意网站的条款和条件。 3. 选择要下载数据集Movielens提供了几个不同版本的数据集,包括100k、1M、10M和20M电影评分数据集。你可以根据需要选择一个适合的数据集。 4. 点击下载按钮。在你选择的数据集页面上,会有一个"下载"或"Download"按钮。点击该按钮开始下载选定的数据集。 5. 等待下载完成。根据你的网络连接速度和数据集的大小,下载可能需要一些时间。请耐心等待并确保你的网络连接稳定。 6. 解压下载数据集。一旦下载完成,你会得到一个压缩文件(通常是一个ZIP文件)。使用解压缩软件(如WinRAR或7-Zip)将文件解压缩到你选择的目标文件夹中。 7. 导入数据集到相应的环境。你可以将数据集导入到不同的环境中,如Python、R或其他数据分析工具。根据你使用的工具,可能需要使用相应的库或函数来读取数据集。 通过以上步骤,你就可以成功下载Movielens数据集,并开始使用它进行推荐算法的研究或评估。记得仔细阅读Movielens网站上提供的文档和指南,以了解数据集的结构和如何使用它进行推荐系统开发。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值