1:什么是机器阅读理解任务
机器阅读理解任务类似英文的阅读理解题型,输入:篇章P和问题Q,输出:答案A的过程。2:机器阅读理解任务类型
机器阅读理解任务主要包含四种类型:选择型、填空型、抽取型、生成型。
- 填空型阅读理解任务
在该类型的任务中,给定一段文本并移除其中若干词或者实体作为问题,模型需要在被删除的位置填入正确答案。部分数据集提供了候选答案,而另外一些数据集则未提供,只能从上下文中寻找。
数据集:CNN & Daily Mail;CBT(The Children Book Test) - 选择型阅读理解任务
选择型阅读理解即根据问题和给定的文本中在若干候选答案中选择正确的答案。
数据集:RACE;ARC;OpenBookQA;CommonsenseQA - 抽取型阅读理解任务
给定问题question和上下文context,需要模型从上下文中提取一个连续的片段作为问题的答案。例如:给定问题:“姚明出生于哪一年”和上下文“姚明,男,汉族,无党派人士,1980年9月12日出生于上海市徐汇区”,得到答案“1980年”。这种任务答案格式相对灵活,能够适应问答系统的大部分场景,像百度,谷歌等搜索引擎都利用这种技术从搜索页面中抽取出答案并显示给用户,用户无须进入结果页面即可得到答案,
数据集:SQuAD;TriviaQA;CoQA - 生成型阅读理解任务
与填空型阅读理解任务和选择型阅读理解任务相比,片段型阅读理解任务在答案上更加灵活,但这还远远不够,因为给出仅限于上下文范围的答案仍然是不现实的,为了回答这些问题,机器还需要在多段文本中进行推理并总结答案。在填空型、选择型、片段型、自由格式型阅读理解这四个任务中,自由格式阅读理解任务是最复杂的,因为它的回答形式没有限制,并且更适合于实际应用场景;与其他任务相比,它减少了一些限制,并将重点更多地放在了使用自由形式的自然语言更好地回答问题。自由格式阅读理解任务在理解性、灵活性等方面表现出很大优势,因为这是最接近实际应用的阅读理解任务。
数据集:MS MARCO(Microsoft Machine Reading Comprehension)