📖标题:YT-30M: A multi-lingual multi-category dataset of YouTube comments
🌐来源:arXiv, 2412.03465
🌟摘要
本文介绍了YouTube上的两个大规模多语言评论数据集YT-30M(和YT-100K)。本文对YT-30M的一个较小样品(YT-100K)进行了分析。两个数据集:YT-30M(完整)和YT-100K(从YT-30M中随机选择的100K样本)都公开发布以供进一步研究。YT-30M(YT-100K)包含YouTube频道发布的属于YouTube类别的32236173(108694)条评论。每条评论都与视频ID、评论ID、评论者姓名、评论者频道ID、评论文本、赞成票、原始频道ID和YouTube频道类别(例如“新闻与政治”、“科学与技术”等)相关联。数据在https://huggingface.co/datasets/hridaydutta123/YT-100K
🛎️文章简介
🔸研究问题:缺乏一个多语言、多类别的评论数据集,以支持自然语言处理和社会网络分析领域的研究。