问答数据集（自用，持更）

啥时候才能确定方向

已于 2022-07-08 11:12:46 修改

阅读量1.4w

点赞数 29

文章标签：自然语言处理

于 2021-12-01 16:42:12 首次发布

本文链接：https://blog.csdn.net/weixin_44125942/article/details/121658854

版权

答案匹配（answer matching）：

答案匹配的基本流程：
将输入的QA对编码为分布向量（词嵌入等方法），然后计算答案和问题的相关性得分（注意力机制等方法）。

单问题-答案对：

1）cMedQA 2.0

gitee库
github：https://github.com/zhangsheng93/cMedQA2 在这里插入图片描述
（平均长度太长了一点，每个问题答案数量不等，3-5个答案）

2) 医疗问答数据集：

论文：IARNN-Based Semantic-Containing Double-Level Embedding Bi-LSTM for Question-and-Answer Matching
网址：
https://github.com/Vitas-Xiong/Chinese-Medical-Question-Answering-System
简介：
从http://www. 120ask.com上爬下来的60000个问题和112986个答案，每个问题有两个正确答案。
问题平均长度：50，答案平均长度：70。
例子：
在这里插入图片描述

3）LegalQA：

网址： https://github.com/siatnlp/LegalQA
论文：Interactive knowledge-enhanced attention network for answer
selection
法律咨询QA对，每个问题5条左右答案，10，000条问题（45，000问题对）
legalQA-manual：有注释的QA对（英文翻译）
legalQA-all：无注释的QA对
例子：
在这里插入图片描述

4）中国法研杯（2021 司法摘要）

官网地址：http://cail.cipsc.org.cn/task5.html?raceID=3
任务：具体来说，我们会提供法律咨询的用户提问和若干个回答，作为真实的问答数据集，选手的任务是输出对应的正确、完整、简洁的参考回答。
数据集：
本任务技术评测使用的训练集、验证集、测试集均来自互联网，包含大约24000条问题，每条问题包含2~4条律师解答以及对应的标准摘要答案。
（官网上要报名才能下载数据，但是找到了一个github和论文）
github：https://github.com/china-ai-law-challenge/CAIL2021
论文：https://blog.csdn.net/CY19980216/article/details/120660124
《2021中国法研杯司法考试数据集研究（CAIL2021）》

5）COVID-QA

网址：https://www.kaggle.com/xhlulu/covidqa
290k个有关新冠病毒的QA对，每对有一个正确答案和一个错误答案。
示例：
在这里插入图片描述

（截图太小，直接去网站看）

6）CMRC2018：（中文）MRC数据集

官网：https://ymcui.com/cmrc2018/
维基百科提取的真实问题，类似中文版SQuAD
分集和数据：
在这里插入图片描述
实例：

官方Baseline：https://github.com/ymcui/cmrc2018
（好像不太好用）
CMRC2019：
句子级填空型阅读理解
给定一个叙事篇章和若干从篇章中抽取出的句子，参赛者需要建立模型将候选句子精准的填回原篇章中，使之成为完整的一篇文章。

7）DuReader系列：（MRC任务）

https://ai.baidu.com/broad/subordinate?dataset=dureader

8）英文QA数据集汇总：

http://nlpprogress.com/english/question_answering.html#searchqa
其中用到的一些：
NewsQA：
专业领域问答
包括119,633 个从CNN新闻上摘取的问答对。
答案平均词数为5
有相关知识

WikiQA：
开放领域问答
包含3,047个问题和29,258个句子
（每个问题答案数不等（3-20个），可能不含正确答案）
无相关文本

NarrativeQA：
https://github.com/deepmind/narrativeqa
格式:[id, question, answer1, answer2,]
COPA：
包含1000个问题，平均分为dev和test集，每个集500个问题，问题和答案长度不超过20词。
在这里插入图片描述

TriviaQA：
包括95K问答对，答案由人工和文件中产生，平均每个问题六个答案，平均问题长度：14，平均文件长度：2895

在这里插入图片描述

HotpotQA：（2017）
https://hotpotqa.github.io/
开放领域问答
包含113K个来自多领域的问题
格式：[id, answer, question, context]

BeerQA：（2021）
https://beerqa.github.io/
开放领域问答，含相关context（可能有多段），基于SQuAD和Hotpot生成，
一个问题只提供一个答案

Web Questions：
homePage：
https://worksheets.codalab.org/worksheets/0xba659fe363cb46e7a505c5b6a774dc8a
机构：斯坦福大学（2013）
介绍：开放领域问答，不含上下文信息，总共6642个问答对，train集含4610个问答对，test集含2032个，问题多数围绕单个命名实体提出。
格式，实例：[url, answer(tagetValue), question(utterance)]
1、Train集：
{“url”: “http://www.freebase.com/view/en/justin_bieber”,
“targetValue”: “(list (description “Jazmyn Bieber”) (description “Jaxon Bieber”))”,
“utterance”: “what is the name of justin bieber brother?”},
2、Test集：
{“url”: “http://www.freebase.com/view/en/jamaica”,
“targetValue”: “(list (description “Jamaican Creole English Language”) (description “Jamaican English”))”,
“utterance”: “what does jamaican people speak?”},
3、实体集，FreeBase中的实体集合（可作为答案池）

OpenBookQA：
机构：A12
介绍：5957个多选科学问题，(4,957 train, 500 dev, 500 test),从1326个科学事实中抽取，以及一个科学知识集openbook（每个知识是一句话）
格式：
[id,Question, Choices, Answer Key]

Qasper：
https://allenai.org/data/qasper
机构：A12（2021）
没有benchmark

QAngaroo：
http://qangaroo.cs.ucl.ac.uk/
没有benchmark，更多偏向阅读理解

MultiRC：
官网：https://cogcomp.seas.upenn.edu/multirc/
机构：
简介：开放领域，train：dev=3:2，短文段多句形式，每个问题的正确答案数量不定，
格式：
在这里插入图片描述
Qupref：
https://allenai.org/data/quoref
机构：A12（2019）
简介：Quoref是一个QA数据集，用于测试阅读理解系统的相关性推理能力。在这个跨度选择基准中，包含来自维基百科的4.7K个段落中的24K个问题，系统必须先解决硬引用，然后才能在段落中选择合适的跨度来回答问题。
在这里插入图片描述

多轮对话-回答对：

来自答案选择benchmark：
https://paperswithcode.com/task/answer-selection

1) 豆瓣多轮对话数据集：

地址：https://github.com/MarkWuNLP/MultiTurnResponseSelection
（下载不在这里在google上，太坑了！！）
说明：
测试数据包含 1000 个对话上下文，对于每个上下文，创建 10 个response作为候选。我们招募了三名标注员来判断候选response是否对上下文做出了适当的回应。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签，大部分标签被视为最终决定。
在这里插入图片描述

2）E-commerce 对话数据集：

地址：在Google上（叹气）
电子商务对话语料库，包括基于检索的聊天机器人的训练数据集、开发集和测试集。
在这里插入图片描述
示例：

（格式和豆瓣数据集相同）

3） Ubuntu对话数据集：

地址：Google
英文数据集，详情见paperswithcode上的benchmark
train.txt: 1 million training samples (pos:neg=1:1)
valid.txt: 50,000 samples for validation (pos:neg=1:9)
test.txt: 50,000 samples for testing (pos:neg=1:9)

其他（未调研，多为社区问答，没啥用）：

1、百科类问答（json版）：

https://pan.baidu.com/share/init?surl=2TCEwC_Q3He65HtPKN17cA
fu45
例子：
{“qid”: “qid_2540946131115409959”,
“category”: “生活知识”,
“title”: "冬天进补好一些呢，还是夏天进步好啊？ ", “desc”: “”,
“answer”: “你好！\r\r当然是冬天进补好的了，夏天人体的胃处于收缩状态，不适宜大量的进补，所以我们有时候说：“夏天就要吃些清淡的，就是这个道理的。”\r\r不过，秋季进补要注意“四忌” 一忌多多益善。任何补药服用过量都有害。认为“多吃补药，有病治病，无病强身”是不的。过量进补会加重脾胃、肝脏负担。在夏季里，人们由于喝冷饮，常食冻品，多有脾胃功能减弱的现象，这时候如果突然大量进补，会骤然加重脾胃及肝脏的负担，使长期处于疲弱的消化器官难于承受，导致消化器官功能紊乱。 \r\r二忌以药代食。重药物轻食物的做法是不科学的，许多食物也是好的滋补品。如多吃荠菜可治疗高血压；多吃萝卜可健胃消食，顺气宽胸；多吃山药能补脾胃。日常食用的胡桃、芝麻、花生、红枣、扁豆等也是进补的佳品。\r\r三忌越贵越好。每个人的身体状况不同，因此与之相适应的补品也是不同的。价格昂贵的补品如燕窝、人参之类并非对每个人都适合。每种进补品都有一定的对象和适应症，应以实用有效为滋补原则，缺啥补啥。 \r\r四忌只补肉类。秋季适当食用牛羊肉进补效果好。但经过夏季后，由于脾胃尚未完全恢复到正常功能，因此过于油腻的食品不易消化吸收。另外，体内过多的脂类、糖类等物质堆积可能诱发心脑血管病。”}

2、社区问答：

https://github.com/brightmart/nlp_chinese_corpus
例子：
{“qid”: 65618973,
“title”: “AlphaGo只会下围棋吗？阿法狗能写小说吗？”,
“desc”: “那么现在会不会有智能机器人能从事文学创作？
如果有，能写出什么水平的作品？”,
“topic”: “机器人”, "
star": 3,
“content”: “AlphaGo只会下围棋，因为它的设计目的，架构，技术方案以及训练数据，都是围绕下围棋这个核心进行的。它在围棋领域的突破，证明了深度学习深度强化学习MCTS技术在围棋领域的有效性，并且取得了重大的PR效果。AlphaGo不会写小说，它是专用的，不会做跨出它领域的其它事情，比如语音识别，人脸识别，自动驾驶，写小说或者理解小说。如果要写小说，需要用到自然语言处理（NLP））中的自然语言生成技术，那是人工智能领域一个”, “answer_id”: 545576062, “answerer_tags”: “人工智能@游戏业”}

3、insuranceQA：

介绍：https://paperswithcode.com/dataset/insuranceqa
这是啥（？）：https://github.com/chatopera/insuranceqa-corpus-zh/wiki

数据集网站（主要是NLP方面）：

1）史上最牛的paperswithcode：
https://paperswithcode.com/
2）史上第二牛的kaggle：
https://www.kaggle.com/
3）做的像屎的天池：
https://tianchi.aliyun.com/dataset?spm=5176.14154004.J_3941670930.21.31fe5699ruuf4H
4）分类诡异的千言：
https://www.luge.ai/#/
5）超牛但是啥也没用上的CLUE：
https://www.cluebenchmarks.com/dataSet_search.html

还没用过的：
dataWorld：
https://data.world/
美国政府数据库网（？）：
https://www.data.gov/
Socrata OpenData：
https://opendata.socrata.com/