Reddit数据集

 链接:https://arxiv.org/pdf/1706.02216.pdf   数据集-OpenDataLab

       Reddit 数据集是来自 2014 年 9 月发布的 Reddit 帖子的图形数据集。在这种情况下,节点标签是帖子所属的社区或“subreddit”。已对 50 个大型社区进行抽样以构建帖子到帖子图,如果同一用户对两者发表评论,则将帖子连接起来。该数据集总共包含 232,965 个帖子,平均度数为 492。前 20 天用于训练,其余天用于测试(其中 30% 用于验证)。对于特征,使用现成的 300 维 GloVe CommonCrawl 词向量。

        数据集中的节点代表Reddit帖子,而边则表示如果同一用户对两个帖子都发表了评论,则这两个帖子之间建立连接。这样的结构使得数据集能够反映出用户在Reddit上的互动模式。数据集总共包含232,965个帖子,平均度数为492,意味着平均每个帖子与492个其他帖子通过同一用户的评论相连。


(1)数据集特点:
节点标签是帖子所属的社区或“subreddit”。在构建数据集时,已经对50个大型社区进行了抽样。
数据集的多样性允许研究人员和数据科学家探索社交媒体动态的各个方面,并开发创新应用。
(2)应用场景:
Reddit数据集可用于多种研究目的,如情感分析、主题建模、社区分析和内容分类等。
(3)数据字段:
每个数据实例代表一个Reddit帖子或评论,包含以下字段:文本内容、标签(情感或主题类别)、数据类型(指示条目是帖子还是评论)、社区名称、日期时间、用户名编码和URL编码等。
(4)数据分割:
数据集的前20天用于训练,其余天用于测试(其中30%用于验证)。
(5)特征表示:
对于特征表示,数据集使用了现成的300维GloVe CommonCrawl单词向量。
Reddit数据集由于其丰富的内容和多样的应用场景,在自然语言处理和社交网络分析领域中被广泛使用。它不仅为研究者提供了丰富的资源,还推动了相关技术的快速发展和应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值