Movielens数据集详细介绍

 MovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。下载地址为:http://files.grouplens.org/datasets/movielens/


下面以ml-100k数据集为例进行介绍:

最主要用的是u.data(评分)  |  u.item(电影信息)  |  u.user(用户信息)

打开数据集如下图:


各文件含义如下:

allbut.pl   --生成训练和测试集的脚本,其中除了n个用户评分之外,所有训练和测试集都在训练数据中。

mku.sh    --从u.data数据集生成的所有用户的shell脚本。

u.data      -- 由943个用户对1682个电影的10000条评分组成。每个用户至少评分20部电影。用户和电影从1号开始连续编号。数据是随机排序的。

                    标签分隔列表:user id | item id | rating | timestamp

u.genre    --类型列表。

u.info       --u.data数据集中的用户数,电影数和评分数。

u.item      --电影信息。标签分隔列表:movie id | movie title | release date | video release date | IMDb URL | 

                   unknown | Action | Adventure | Animation | Children's | Comedy | Crime | Documentary | Drama | 

                   Fantasy | Film-Noir | Horror | Musical | Mystery | Romance | Sci-Fi | Thriller | War | Western

                   最后19个字段是流派,1表示电影是该类型,0表示不是;电影可以同时使用几种流派。

                   电影id和u.data数据集中的id是一致的

u.occupation    --职业列表。

u.user      --用户的人口统计信息。标签分隔列表:user id | age | gender | occupation | zip code

                  用户id和u.data数据集中的id是一致的

u1.base   --数据集u1.base / u1.test到u5.base / u5.test都是将u.data数据集按照80% / 20%的比例分割的训练集和测试集。

u1.test      u1,...,u5有互不相交的测试集;如果是5次交叉验证,那么你可以在每个训练和测试集中重复实验,平均结果。

u2.base     这些数据集可以通过mku.sh从u.data生成

u2.test

u3.base

u3.test

u4.base

u4.test

u5.base

u5.test

ua.base    --数据集ua.base, ua.test, ub.base, ub.test将u.data数据集分为训练集和测试集,每个用户在测试集中具有10个评分。

ua.test        ua.test和ub.test是不相交的。这些数据集可以通过mku.sh从u.data生成

ub.base

ub.test



对于MovieLens数据集的简单探索,可以看这篇博文:http://blog.csdn.net/u013527419/article/details/53264741
想下载各个领域的数据集,可以从这里:
1、https://zhuanlan.zhihu.com/p/25138563
2、http://archive.ics.uci.edu/ml/index.php



             


### Movielens 数据集详细介绍及用途 #### 数据集概述 Movielens 数据集是由 GroupLens Research 实验室提供的公开数据集,主要用于电影推荐系统的开发和研究。该数据集被广泛应用于学术界以及工业界的个性化推荐系统领域[^1]。 根据其规模和应用场景的不同,Movielens 数据集可分为多个版本,常见的包括小型数据集(如 MovieLens 100K)、中型数据集(如 MovieLens 1M)以及大型数据集(如 MovieLens 20M)。这些数据集的主要区别在于用户数量、电影数量以及评分记录的数量[^3]。 #### 数据结构与组成 以 MovieLens 1M 数据集为例,它包含约 6,040 名用户的评分记录,涉及大约 3,900 部电影,总共有超过 1 百万条匿名评分记录。每一条评分记录通常由以下几个字段构成: - 用户 ID (UserID): 表示特定用户的唯一标识符。 - 电影 ID (MovieID): 表明某一部电影的独特编号。 - 评分 (Rating): 用户对该电影的具体评分值,范围通常是 1 到 5 的整数。 - 时间戳 (Timestamp): 记录评分行为发生的时间点。 此外,某些版本的数据集中还可能附带额外的信息,比如电影元数据(类别标签、发行年份等),或者用户属性(年龄、性别、职业等)。 #### 主要用途 Movielens 数据集因其丰富的信息量和标准化的格式,在以下场景中有广泛应用: 1. **推荐算法的研究**: 它常作为测试平台来评估各种推荐算法的效果,例如协同过滤方法中的 ItemCF 和 UserCF 算法。 2. **机器学习模型训练**: 可用于构建基于矩阵分解的方法(如 ALS 算法)或其他复杂的深度学习框架下的推荐引擎[^4]。 3. **教学资源**: 因为易于获取且文档详尽,许多高校将其纳入课程设计或实验环节的一部分,帮助学生理解并实践推荐技术原理。 4. **行业应用探索**: 不仅限于学术环境,企业开发者也能利用此类公共数据源快速验证新想法可行性,并优化现有产品功能[^2]。 以下是使用 Python 加载 MovieLens 小型数据集的一个简单例子: ```python import pandas as pd # 假设 ratings.csv 文件位于当前目录下 ratings_df = pd.read_csv('ratings.csv') print(ratings_df.head()) ``` 上述代码片段展示了如何通过 Pandas 库读取 CSV 格式的评分文件,并打印前几行内容以便初步观察数据形态。 --- ###
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值