任务描述
多文档阅读理解的抽取式任务,根据给定的一个问题和若干个文档中,找到问题答案。涉及了信息检索、文本问答、答案排序等,总共有三个模块:
1.检索模块:从多个文档中召回少量和问题相关的段落内容
2.阅读模块:从召回段落中抽取候选答案(单文档的抽取式任务问答)
3.答案重排序模块:将多个候选答案重排
本篇论文
以往的多文档的阅读理解,检索模块、阅读模块、答案重排是独立的,是流水线方法,会面临两个问题:
1.流水线方法内中包含若干个独立模块,每个模块都需要重复编码的输入,在处理大规模的文本效率低。
2.由于流水线方法中每个模块独立训练,在测试中,下游模块接受上游模块的输出,可能该输出的分布可能和训练数据分布不一致,出现训练-测试不一致的问题。
该篇论文首次提出了一个端到端的检索-阅读-重排序网络(RE3QA),为了解决流水线方法的不足,将检索模块、阅读模块、答案重排模块集成到了一个统一的神经网络,各个模块共享上下文的表示信息。实验结果要优于baseline。
模型
整个流程
先进行文本的剪裁,过滤掉不重要的大多数文本,然后用transformer模块进行文本片段编码,得到文本的打分,将打分高的送入到阅读器中进行候选答