概述
对于多段落的文章来说,我们主要有两种方法
- 筛选出文章中最有可能包含答案的段落,然后将这个段落送入模型当中,最后得到答案的位置标签
- 将文本每个段落都送入到模型当中,得到每个段落的答案位置并通过相关算法得到置信度的打分,选择分高的作为答案
在这篇论文中提出了一种结合以上两种方法的模型
- 从文档中抽取多个段落,并使用了一个能输出全局对错的目标函数,要求模型生成全局正确的输出。
- 为每个段落计算准确置信度分数。
方法
段落选择
使用基于TF-IDF的段落选择方法
对于单文档来说,我们筛选段落,根据其和问题的TF-IDF余弦相似度打分来进行排序选择哪一段送入到模型进行抽取答案。
对于多文档来说,使用一个相同TF-IDF分数的线性分类器,当文档进入分类器,会根据分类结果决定是否送入到模型进行抽取答案。
处理噪声标签
红色的则是噪声标签,绿色的是正确的答案
在监督式学习中,如果将匹配答案的所有文本范围标记为正确,可能会使得模型最终选择到不包含正确答案的部分。因此,这里使用了一种总和目标函数&#x