关于中英文语料的获取途径总结

最新推荐文章于 2024-07-30 22:31:58 发布

一夜了

最新推荐文章于 2024-07-30 22:31:58 发布

阅读量9k

点赞数 8

分类专栏：机器学习及深度学习相关 NLP 文章标签：语料库中文语料库英文语料库对话语料 nlp语料

本文链接：https://blog.csdn.net/yiyele/article/details/82285830

版权

机器学习及深度学习相关同时被 2 个专栏收录

36 篇文章 7 订阅

订阅专栏

NLP

33 篇文章 11 订阅

订阅专栏

中文：

https://github.com/candlewill/Dialog_Corpus 这个是一个集合，包括之前答主的答案！
包含的语料包括了
1）小黄鸡 xiaohuangji50w_nofenci.conv.zip
2）dgk_shooter_min.conv.zip 中文电影对白语料，噪音比较大，许多对白问答关系没有对应好
3）smsCorpus_zh_xml_2015.03.09.zip 包含中文和英文短信息语料，据说是世界最大公开的短消息语料
4）ChatterBot中文基本聊天语料 ChatterBot聊天引擎提供的一点基本中文聊天语料，量很少，但质量比较高
5）Datasets for Natural Language Processing
这是他人收集的自然语言处理相关数据集，主要包含Question Answering，Dialogue Systems，
Goal-Oriented Dialogue Systems三部分，都是英文文本。可以使用机器翻译为中文，供中文对话使用
6）白鹭时代中文问答语料由白鹭时代官方论坛问答板块10,000+ 问题中，选择被标注了“最佳答案”的纪录汇总而成。人工review
raw data，给每一个问题，一个可以接受的答案。目前，语料库只包含2907个问答。
7）Chat corpus repository 包括：开放字幕、英文电影字幕、中文歌词、英文推文
8）保险行业QA语料库通过翻译 insuranceQA产生的数据集。train_data含有问题12,889条，数据
141779条，正例：负例 = 1:10； test_data含有问题2,000条，数据 22000条，正例：负例 =
1:10；valid_data含有问题2,000条，数据 22000条，正例：负例 = 1:10
9）https://github.com/MarkWuNLP/MultiTurnResponseSelection 来自豆瓣的多轮对话
10）http://jddc.jd.com/ 京东比赛
11）http://www.shareditor.com/blogshow/?blogId=112 自己动手做的数据
12）贴吧对话数据文件名：tieba.dialogues 保存在网盘中
13）https://www.jianshu.com/p/c1865d2b911c 高质量闲聊（聊天、对话）语料（数据）
14）SMP2017中文人机对话评测数据
https://github.com/HITlilingzhi/SMP2017ECDT-DATA
15）新浪微博数据集，评论回复短句，下载地址：http://lwc.daanvanesch.nl/openaccess.php
16） http://data.noahlab.com.hk/conversation/ 华为诺亚方舟实验室中文对话语料库
17）http://www.mlln.cn/2018/06/02/[%E8%BD%AC]%E5%90%8A%E7%82%B8%E5%A4%A9%E7%9A%84%E4%B8%AD%E6%96%87%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%E5%B7%A5%E5%85%B7%E5%92%8C%E8%AF%AD%E6%96%99%E5%BA%93%E4%BB%8B%E7%BB%8D/#Corpus-%E4%B8%AD%E6%96%87%E8%AF%AD%E6%96%99
corpus中文语料集
18）ubuntu对话系统数据集保存在百度网盘中 ubuntu_dataset.zip
19）chatterbot https://github.com/gunthercox/chatterbot-corpus/tree/master/chatterbot_corpus/data/chinese
20）douban（豆瓣多轮） https://github.com/MarkWuNLP/MultiTurnResponseSelection
21）ptt（PTT八卦语料） https://github.com/zake7749/Gossiping-Chinese-Corpus
22）qingyun（青云语料）无
23）subtitle（电视剧对白语料） https://github.com/fateleak/dgk_lost_conv
24）tieba（贴吧论坛回帖语料） https://pan.baidu.com/s/1mUknfwy1nhSM7XzH8xi7gQ
密码:i4si
25）weibo（微博语料）
26）
NLPCC情绪分类比赛：http://coai.cs.tsinghua.edu.cn/hml/challenge2017/，大概有110的情绪<q,r>pair.
27）清华开源的中文对话语料：https://github.com/thu-coai/CDial-GPT

英文：

1）https://link.zhihu.com/?target=http%3A//nlp.stanford.edu/projects/kvret/kvret_dataset_public.zip
斯坦福数据集
2）Cornell Movie
Dialogs：电影对话数据集，下载地址：http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
3）Ubuntu Dialogue
Corpus：Ubuntu日志对话数据，下载地址：https://arxiv.org/abs/1506.08909
4）
OpenSubtitles：电影字幕，下载地址：http://opus.lingfil.uu.se/OpenSubtitles.php
5）
Twitter：twitter数据集，下载地址：https://github.com/Marsan-Ma/twitter_scraper
6）Papaya Conversational Data
Set：基于Cornell、Reddit等数据集重新整理之后，好像挺干净的，下载链接：https://github.com/bshao001/ChatLearner
7）https://github.com/niderhoff/nlp-datasets/blob/master/README.md
自然语言处理的免费/公开数据集（https://zhuanlan.zhihu.com/p/35423943 资源比较多，可以看看）
8）https://github.com/niderhoff/nlp-datasets github上总结的资源

相关数据集的处理代码或者处理好的数据可以参见下面两个github项目：

DeepQA
chat_corpus

others：
电影字幕网站：https://www.zimuku.cn/