嘿,记得给“机器学习与推荐算法”添加星标
作者:高崇铭
单位:中国科学技术大学博士生,快手实习
在沉淀了一段时间后,我们推出了数据集KuaiRec的2.0版本。这是由我们中科大何向南团队与快手社区科学部门联合推出的,用于推荐系统的一个全曝光数据集。这也是推荐系统学界以及业界首个包含百万量级交互的超密集曝光数据。
数据集的详细信息可见官网文档:https://chongminggao.github.io/KuaiRec/
关于这个数据的的1.0版本的简介,可参考本文KuaiRec | 快手发布首个稠密度高达99%的推荐数据集, 可用于多种推荐系统方向研究。
什么是全曝光数据集?
在本数据集提出前,几乎所有的真实推荐数据集都是高度稀疏的,以下列举了一些常见的推荐数据集,给定了用户数目、商品数目、交互数目,以及对应的数据密度=交互数/(用户数*商品数)。可见绝大多数的推荐数据集密度是小于1%的。
Dataset | #Users | #Items | #Interactions | Density | Types of interactions | # User Features | # Item Features |
---|---|---|---|---|---|---|---|
Movielens 1M | 6,040 | 3,706 | 1,000,209 | 4.47% | Rating: [1-5] | 4 | 1 |
Movielens 10M | 69,878 | 10,677 | 10,000,054 | 1.34% | Rating: [0.5-5], tags | 0 | 1 |
Movielens 20M | 138,493 | 26,744 | 20,000,263 | 0.540% | Rating: [0.5-5], tags | 0 | 1 |
Movielens 25M | 162,541 | 5,9047 |