【论文笔记】Simple and Effective Multi-Paragraph Reading Comprehension

概述

对于多段落的文章来说,我们主要有两种方法

  1. 筛选出文章中最有可能包含答案的段落,然后将这个段落送入模型当中,最后得到答案的位置标签
  2. 将文本每个段落都送入到模型当中,得到每个段落的答案位置并通过相关算法得到置信度的打分,选择分高的作为答案

在这篇论文中提出了一种结合以上两种方法的模型

  • 从文档中抽取多个段落,并使用了一个能输出全局对错的目标函数,要求模型生成全局正确的输出。
  • 为每个段落计算准确置信度分数。

方法

段落选择

使用基于TF-IDF的段落选择方法
对于单文档来说,我们筛选段落,根据其和问题的TF-IDF余弦相似度打分来进行排序选择哪一段送入到模型进行抽取答案。
对于多文档来说,使用一个相同TF-IDF分数的线性分类器,当文档进入分类器,会根据分类结果决定是否送入到模型进行抽取答案。

处理噪声标签

红色的则是噪声标签,绿色的是正确的答案

在监督式学习中,如果将匹配答案的所有文本范围标记为正确,可能会使得模型最终选择到不包含正确答案的部分。因此,这里使用了一种总和目标函数&#x

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值