问答数据集(自用,持更)

答案匹配(answer matching):

答案匹配的基本流程:
将输入的QA对编码为分布向量(词嵌入等方法),然后计算答案和问题的相关性得分(注意力机制等方法)。

单问题-答案对:

1)cMedQA 2.0

gitee库
github:https://github.com/zhangsheng93/cMedQA2在这里插入图片描述
(平均长度太长了一点,每个问题答案数量不等,3-5个答案)

2) 医疗问答数据集:

论文:IARNN-Based Semantic-Containing Double-Level Embedding Bi-LSTM for Question-and-Answer Matching
网址:
https://github.com/Vitas-Xiong/Chinese-Medical-Question-Answering-System
简介:
从http://www. 120ask.com上爬下来的60000个问题和112986个答案,每个问题有两个正确答案。
问题平均长度:50,答案平均长度:70。
例子:
在这里插入图片描述

3)LegalQA:

网址: https://github.com/siatnlp/LegalQA
论文:Interactive knowledge-enhanced attention network for answer
selection
法律咨询QA对,每个问题5条左右答案,10,000条问题(45,000问题对)
legalQA-manual:有注释的QA对(英文翻译)
legalQA-all:无注释的QA对
例子:
在这里插入图片描述

4) 中国法研杯(2021 司法摘要)

官网地址:http://cail.cipsc.org.cn/task5.html?raceID=3
任务:具体来说,我们会提供法律咨询的用户提问和若干个回答,作为真实的问答数据集,选手的任务是输出对应的正确、完整、简洁的参考回答。
数据集:
本任务技术评测使用的训练集、验证集、测试集均来自互联网,包含大约24000条问题,每条问题包含2~4条律师解答以及对应的标准摘要答案。
(官网上要报名才能下载数据,但是找到了一个github和论文)
github:https://github.com/china-ai-law-challenge/CAIL2021
论文:https://blog.csdn.net/CY19980216/article/details/120660124
《2021中国法研杯司法考试数据集研究(CAIL2021)》

5)COVID-QA

网址:https://www.kaggle.com/xhlulu/covidqa
290k个有关新冠病毒的QA对,每对有一个正确答案和一个错误答案。
示例:
在这里插入图片描述
在这里插入图片描述
(截图太小,直接去网站看)

6)CMRC2018:(中文)MRC数据集

官网:https://ymcui.com/cmrc2018/
维基百科提取的真实问题,类似中文版SQuAD
分集和数据:
在这里插入图片描述
实例:
在这里插入图片描述
官方Baseline:https://github.com/ymcui/cmrc2018
(好像不太好用)
CMRC2019:
句子级填空型阅读理解
给定一个叙事篇章和若干从篇章中抽取出的句子,参赛者需要建立模型将候选句子精准的填回原篇章中,使之成为完整的一篇文章。

7)DuReader系列:(MRC任务)

https://ai.baidu.com/broad/subordinate?dataset=dureader

8)英文QA数据集汇总:

http://nlpprogress.com/english/question_answering.html#searchqa
其中用到的一些:
NewsQA:
专业领域问答
包括119,633 个从CNN新闻上摘取的问答对。
答案平均词数为5
有相关知识

WikiQA:
开放领域问答
包含3,047个问题和29,258个句子
(每个问题答案数不等(3-20个),可能不含正确答案)
无相关文本

NarrativeQA:
https://github.com/deepmind/narrativeqa
格式:[id, question, answer1, answer2,]
COPA:
包含1000个问题,平均分为dev和test集,每个集500个问题, 问题和答案长度不超过20词。
在这里插入图片描述

TriviaQA:
包括95K问答对,答案由人工和文件中产生,平均每个问题六个答案,平均问题长度:14,平均文件长度:2895

在这里插入图片描述

HotpotQA:(2017)
https://hotpotqa.github.io/
开放领域问答
包含113K个来自多领域的问题
格式:[id, answer, question, context]

BeerQA:(2021)
https://beerqa.github.io/
开放领域问答,含相关context(可能有多段),基于SQuAD和Hotpot生成,
一个问题只提供一个答案

Web Questions:
homePage:
https://worksheets.codalab.org/worksheets/0xba659fe363cb46e7a505c5b6a774dc8a
机构:斯坦福大学(2013)
介绍:开放领域问答,不含上下文信息,总共6642个问答对,train集含4610个问答对,test集含2032个,问题多数围绕单个命名实体提出。
格式,实例:[url, answer(tagetValue), question(utterance)]
1、Train集:
{“url”: “http://www.freebase.com/view/en/justin_bieber”,
“targetValue”: “(list (description “Jazmyn Bieber”) (description “Jaxon Bieber”))”,
“utterance”: “what is the name of justin bieber brother?”},
2、Test集:
{“url”: “http://www.freebase.com/view/en/jamaica”,
“targetValue”: “(list (description “Jamaican Creole English Language”) (description “Jamaican English”))”,
“utterance”: “what does jamaican people speak?”},
3、实体集,FreeBase中的实体集合(可作为答案池)

OpenBookQA:
机构:A12
介绍:5957个多选科学问题,(4,957 train, 500 dev, 500 test),从1326个科学事实中抽取,以及一个科学知识集openbook(每个知识是一句话)
格式:
[id,Question, Choices, Answer Key]

Qasper:
https://allenai.org/data/qasper
机构:A12(2021)
没有benchmark

QAngaroo:
http://qangaroo.cs.ucl.ac.uk/
没有benchmark,更多偏向阅读理解

MultiRC:
官网:https://cogcomp.seas.upenn.edu/multirc/
机构:
简介:开放领域,train:dev=3:2,短文段多句形式,每个问题的正确答案数量不定,
格式:
在这里插入图片描述
Qupref:
https://allenai.org/data/quoref
机构:A12(2019)
简介:Quoref是一个QA数据集,用于测试阅读理解系统的相关性推理能力。在这个跨度选择基准中,包含来自维基百科的4.7K个段落中的24K个问题,系统必须先解决硬引用,然后才能在段落中选择合适的跨度来回答问题。
在这里插入图片描述

多轮对话-回答对:

来自答案选择benchmark:
https://paperswithcode.com/task/answer-selection

1) 豆瓣多轮对话数据集:

地址:https://github.com/MarkWuNLP/MultiTurnResponseSelection
(下载不在这里在google上,太坑了!! )
说明:
测试数据包含 1000 个对话上下文,对于每个上下文,创建 10 个response作为候选。我们招募了三名标注员来判断候选response是否对上下文做出了适当的回应。正确的响应意味着响应可以自然地回复给定上下文的消息。每对收到三个标签,大部分标签被视为最终决定。
在这里插入图片描述

2)E-commerce 对话数据集:

地址:在Google上(叹气)
电子商务对话语料库,包括基于检索的聊天机器人的训练数据集、开发集和测试集。
在这里插入图片描述
示例:
在这里插入图片描述
(格式和豆瓣数据集相同)

3) Ubuntu对话数据集:

地址:Google
英文数据集,详情见paperswithcode上的benchmark
train.txt: 1 million training samples (pos:neg=1:1)
valid.txt: 50,000 samples for validation (pos:neg=1:9)
test.txt: 50,000 samples for testing (pos:neg=1:9)

其他(未调研,多为社区问答,没啥用):

1、百科类问答(json版):

https://pan.baidu.com/share/init?surl=2TCEwC_Q3He65HtPKN17cA
fu45
例子:
{“qid”: “qid_2540946131115409959”,
“category”: “生活知识”,
“title”: "冬天进补好一些呢,还是夏天进步好啊? ", “desc”: “”,
“answer”: “你好!\r\r当然是冬天进补好的了,夏天人体的胃处于收缩状态,不适宜大量的进补,所以我们有时候说:“夏天就要吃些清淡的,就是这个道理的。”\r\r不过,秋季进补要注意“四忌” 一忌多多益善。任何补药服用过量都有害。认为“多吃补药,有病治病,无病强身”是不的。过量进补会加重脾胃、肝脏负担。在夏季里,人们由于喝冷饮,常食冻品,多有脾胃功能减弱的现象,这时候如果突然大量进补,会骤然加重脾胃及肝脏的负担,使长期处于疲弱的消化器官难于承受,导致消化器官功能紊乱。 \r\r二忌以药代食。重药物轻食物的做法是不科学的,许多食物也是好的滋补品。如多吃荠菜可治疗高血压;多吃萝卜可健胃消食,顺气宽胸;多吃山药能补脾胃。日常食用的胡桃、芝麻、花生、红枣、扁豆等也是进补的佳品。\r\r三忌越贵越好。每个人的身体状况不同,因此与之相适应的补品也是不同的。价格昂贵的补品如燕窝、人参之类并非对每个人都适合。每种进补品都有一定的对象和适应症,应以实用有效为滋补原则,缺啥补啥。 \r\r四忌只补肉类。秋季适当食用牛羊肉进补效果好。但经过夏季后,由于脾胃尚未完全恢复到正常功能,因此过于油腻的食品不易消化吸收。另外,体内过多的脂类、糖类等物质堆积可能诱发心脑血管病。”}

2、社区问答:

https://github.com/brightmart/nlp_chinese_corpus
例子:
{“qid”: 65618973,
“title”: “AlphaGo只会下围棋吗?阿法狗能写小说吗?”,
“desc”: “那么现在会不会有智能机器人能从事文学创作?
如果有,能写出什么水平的作品?”,
“topic”: “机器人”, "
star": 3,
“content”: “AlphaGo只会下围棋,因为它的设计目的,架构,技术方案以及训练数据,都是围绕下围棋这个核心进行的。它在围棋领域的突破,证明了深度学习深度强化学习MCTS技术在围棋领域的有效性,并且取得了重大的PR效果。AlphaGo不会写小说,它是专用的,不会做跨出它领域的其它事情,比如语音识别,人脸识别,自动驾驶,写小说或者理解小说。如果要写小说,需要用到自然语言处理(NLP))中的自然语言生成技术,那是人工智能领域一个”, “answer_id”: 545576062, “answerer_tags”: “人工智能@游戏业”}

3、insuranceQA:

介绍:https://paperswithcode.com/dataset/insuranceqa
这是啥(?):https://github.com/chatopera/insuranceqa-corpus-zh/wiki

数据集网站(主要是NLP方面):

1)史上最牛的paperswithcode:
https://paperswithcode.com/
2)史上第二牛的kaggle:
https://www.kaggle.com/
3)做的像屎的天池:
https://tianchi.aliyun.com/dataset?spm=5176.14154004.J_3941670930.21.31fe5699ruuf4H
4)分类诡异的千言:
https://www.luge.ai/#/
5)超牛但是啥也没用上的CLUE:
https://www.cluebenchmarks.com/dataSet_search.html

还没用过的:
dataWorld:
https://data.world/
美国政府数据库网(?):
https://www.data.gov/
Socrata OpenData:
https://opendata.socrata.com/

  • 24
    点赞
  • 88
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值