Reddit数据集

白兔1028

于 2025-02-05 16:26:45 发布

阅读量597

点赞数 7

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_62646577/article/details/145457215

版权

链接：https://arxiv.org/pdf/1706.02216.pdf 数据集-OpenDataLab

Reddit 数据集是来自 2014 年 9 月发布的 Reddit 帖子的图形数据集。在这种情况下，节点标签是帖子所属的社区或“subreddit”。已对 50 个大型社区进行抽样以构建帖子到帖子图，如果同一用户对两者发表评论，则将帖子连接起来。该数据集总共包含 232,965 个帖子，平均度数为 492。前 20 天用于训练，其余天用于测试（其中 30% 用于验证）。对于特征，使用现成的 300 维 GloVe CommonCrawl 词向量。

数据集中的节点代表Reddit帖子，而边则表示如果同一用户对两个帖子都发表了评论，则这两个帖子之间建立连接。这样的结构使得数据集能够反映出用户在Reddit上的互动模式。数据集总共包含232,965个帖子，平均度数为492，意味着平均每个帖子与492个其他帖子通过同一用户的评论相连。

（1）数据集特点：
节点标签是帖子所属的社区或“subreddit”。在构建数据集时，已经对50个大型社区进行了抽样。
数据集的多样性允许研究人员和数据科学家探索社交媒体动态的各个方面，并开发创新应用。
（2）应用场景：
Reddit数据集可用于多种研究目的，如情感分析、主题建模、社区分析和内容分类等。
（3）数据字段：
每个数据实例代表一个Reddit帖子或评论，包含以下字段：文本内容、标签（情感或主题类别）、数据类型（指示条目是帖子还是评论）、社区名称、日期时间、用户名编码和URL编码等。
（4）数据分割：
数据集的前20天用于训练，其余天用于测试（其中30%用于验证）。
（5）特征表示：
对于特征表示，数据集使用了现成的300维GloVe CommonCrawl单词向量。
Reddit数据集由于其丰富的内容和多样的应用场景，在自然语言处理和社交网络分析领域中被广泛使用。它不仅为研究者提供了丰富的资源，还推动了相关技术的快速发展和应用。