数据集 | NLP中的常见数据集

1.用于情绪分析的 NLP 数据集

IMDB评论IMDB Reviews:该数据集(虽然相对较小)在数千部电影中拥有超过25,000条评论,是二元情绪分类用例的完美数据集。

多域情感分析数据集Multi-Domain Sentiment Analysis Dataset多域情感分析数据集:虽然此数据集可能稍旧,但它具有各种各样的亚马逊产品及其相应的评论。

Stanford Sentiment Treebank:这个数据集非常适合训练一个模型,以便在10,000多篇烂番茄评论中使用更长的短语来识别情绪。

Sentiment140:这个受欢迎的数据集拥有超过160,000条推文,在6个字段中进行了格式化,包括推文数据,查询,文本,极性,ID和用户。

Twitter 美国航空公司情绪Twitter US Airline Sentiment:这个 2015 年的数据集包含与美国航空公司相关的已分类推文(正面、中立、负面)。

2.文本数据集

2.1.中文文本

千言数据集

2.2.英文文本

以下数据集非常适合语音识别和聊天机器人,因为它包含广泛的数据集。

20 Newsgroups:包含 20,000 个文档的集合,涵盖 20 个新闻组和主题。这些主题特别令人感兴趣,因为它们概述了从宗教到流行体育的所有内容。

路透社新闻数据集:最初出现在1987年,该数据集已被标记,索引和编译用于机器学习。

ArXiv:这个庞大的270 GB数据集以全文形式包含所有arXiv研究论文。

WikiQA语料库:这个公开可用的问答数据集最初是为了帮助所有开放领域的问答研究而编译的。

UCI 的垃圾邮件库:此数据集由惠普 (惠普) 的一个团队创建,旨在帮助创建垃圾邮件过滤器。它包含用户以前标记为垃圾邮件的电子邮件的一小部分。

Yelp评论:这个Yelp数据集包含超过160,000家企业的850多万条评论。它还拥有200,000多张图片,横跨8个主要大都市地区。

WordNet:该数据集由普林斯顿大学的研究人员编译,作为英语“synsets”的大型词汇数据库。如果您不知道那是什么,请不要担心;它本质上只是一组同义词,足以描述和概述独特和抽象的概念。

博客作者身份语料库:包含由19,320名博主撰写的681,000多篇博客文章,该数据集拥有超过1.4亿字。

3.用于自然语言处理的音频语音数据集

自然语言处理(NLP)尤其受益于音频语音数据集,例如此列表中的NLP数据集,以及车载导航和其他声音激活系统等虚拟助手。

2000 HUB5 英语:包含最初来自 40 个英语电话交谈的成绩单,此数据集包含一系列 NLP 语音文件。

LibriSpeech:包含大约1000小时的英语演讲,这个数据集本质上是一个有声读物的集合,这些有声读物是由它们衍生的书籍的章节组织的。

口语维基百科语料库:对于任何希望超越英语的人来说,这个数据集是完美的数据集,由德语,荷兰语和英语的文章组成。它包含一连串不同主题的独特和不同的读者。

免费口语数字数据集:此NLP数据集由1,500多个英语口语数字记录组成。

TIMIT:专为开发自动语音识别系统而设计,该数据集包含600多个独特的美式英语使用者从十个“语音丰富”段落中阅读的记录。它对于任何与声学语音研究有关的研究都特别有用。

4.自然语言处理数据集(常规)

4.1.CoLA

下载地址:The Corpus of Linguistic Acceptability (CoLA) (nyu-mll.github.io)

语言可接受性语料库(CoLA)的完整形式由23种语言学出版物中的10657个句子组成,由原作者对其可接受性(语法性)进行专业注释。这里提供的公开版本包含9594个属于训练和开发集的句子,不包括1063个属于测试集的句子。

 将数据拆分为包含来自 17 个源的句子的域内集和包含其余 6 个源的域外集。域内集拆分为训练/开发/测试部分,域外集拆分为开发/测试部分。测试集不会公开。为方便起见,每个数据集都以原始形式和标记化形式(来自NLTK标记器)提供两次。公共数据分为以下文件:

  • 原始/in_domain_train (8551 行)
  • 原始/in_domain_dev (527 行)
  • 原始/out_of_domain_dev (516 行)
  • 标记化/in_domain_train.tsv(8551 行)
  • 标记化/in_domain_dev.tsv(527 行)
  • 标记化/out_of_domain_dev.tsv(516 行)

Enron Dataset:此数据集包含 500,000 多封安然官员电子邮件的消息,特别适用于任何希望扩展对电子邮件工具内部工作原理的理解的人。

谷歌图书字母:Ngram是固定大小的项目元组。Ngrams 中的 N 旨在指定元组中的元素数,因此 5 个 gram 包含 5 个单词/字符。

亚马逊评论:该数据集拥有3500万条亚马逊产品评论,跨越18年,对于需要用户信息,评级和明文评论进行情感分析的任何人特别有用。

维基百科链接数据:此Google数据集包含大约1300万个文档,每个文档都包含一个超链接(每个至少一个),该超链接指向英语维基百科页面。每个维基百科页面都被视为一个实体。

Blogger语料库:这个 Blogger.com 集合了大约681,288篇博客文章,包含超过1.4亿字。其中包含的每个博客都有200个最常用的英语单词。

Gutenberg eBooks List::最初取自古腾堡计划的带注释的电子书列表,该NLP数据集包含围绕每本电子书的基本信息,并根据其出版年份进行组织。

危险:包含来自测验节目的200,000多个Q&A,由神圣的Reddit用户编制,每个数据点都包含更多信息,例如播出日期,问题甚至集数。

Hansards 加拿大议会的文本块:包含来自第 36 届加拿大议会法庭报告的 130 万对文本,这个多样化的数据集对于各种 NLP 应用程序非常有用。

英语短信垃圾邮件收集:非常适合构建垃圾邮件过滤器,因为此NLP数据集包含5500多条英语短信,每条短信都被标记为合法或垃圾邮件。

参考文献

【1】25 Best NLP Datasets for Machine Learning | iMerit

  • 1
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
NLP自然语言处理)技术可以应用于高考数学题的数据集。高考数学题数据集通常包含大量的数学题目及其答案,可以通过NLP技术进行处理和分析,以提供对这些题目的深入理解和相关信息的抽取。 首先,利用NLP技术可以对数学题目进行文本分析和语义理解。通过分析题目的文本结构和语义关系,可以识别出题目类型、重要关键词和条件限制等。这有助于构建数学题目的知识图谱,并能够更好地理解和解释题目。 其次,NLP技术利用文本相似度算法,可以将大量数学题目进行分类和聚类。通过计算不同题目之间的相似度,可以将题目按照题型、难度或其他因素进行分类,方便学生和教师进行针对性的学习和教学。 另外,NLP技术还可以应用于数学题目的解答过程和答案评估。通过分析学生针对数学题目的解题思路和答案推理过程,可以识别出常见的解题错误和思维偏差,进而帮助学生提高解题能力和答案准确率。 最后,NLP技术可以通过机器学习算法和模型构建,为学生提供个性化的数学学习建议和辅导。通过分析学生在解答数学题时的反应和表现,可以为其推荐相应的学习资料、题目训练和解题方法,以帮助学生有针对性地提高数学成绩。 总的来说,NLP技术可以在高考数学题数据集的处理和分析发挥重要作用,为学生提供个性化的学习辅导和提高解题能力的支持。这将有助于学生更好地理解数学题目、提高解题效率和准确性,从而在高考取得更好的成绩。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夏天|여름이다

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值