CS224N(Lecture 10) -2019 斯坦福

Lecture 10(2019 斯坦福)

Question Answering

问答系统(简称QA),是近几年比较火的NLP应用之一,常见的应用有:问答机器人、智能客服等。本节内容将主要讲解了斯坦福所提出的Stanford Attentive Reader模型,和简要分析一下其他相关模型。

一、 是什么推动了问答系统?

  • 大量的文本文档集
  • 在手机上它的工作原理会更加有效,或者是数字助理设备(Alex系统等)

问答系统主要分为两部分:

  • 找到可能包含答案的文档(使用传统的信息检索技术
  • 在可能的文档中找到我们所需要的答案(通常称为阅读理解

机器理解:

  • 机器理解一段文字,对于任何与文本相关的问题,只要能被大多数母语为该语言的人正确回答,该机器就可以提供一个字符串,这些人既同意回答该问题,又不包含与该问题无关的信息。

二、 斯坦福问答数据集(SQuAD)

2.1 SQuAD 评估,v1.1
  • 作者收集了三个黄金答案

  • 系统根据两个指标进行评分:
    1.精确匹配:1/0的准确度,是否匹配三个答案之一
    2.以系统和每个黄金答案作为单词包,进行评估
    精密度=tp / ( tp + fp ) , 查全率= tp / ( tp + tn) ,调和平均F1=2PR/(P+R)

  • F1测量被认为是最主要且更可靠的
    它不基于人类所选择的完全相同的跨度,这容易受到影响,包括换行

  • 这两个指标都忽略了标点符号和冠词(a,an,the,only)
    在这里插入图片描述

2.2 SQuAD 2.0
  • 1.0 的一个缺点是所有问题都有答案
    系统隐藏式的对候选问题进行排序并选择最好的一个,不需要判断是否回答了问题
  • 在SQuAD2.0中,1/3的训练集问题没有答案,1/2的测试开发问题没有答案
  • NoAnswer获得1分,其他任何响应都为0分
  • 接近2.0的最简单的方法,不是总是在系统中返回最佳匹配,而是使用某种阈值,只有当分数高于阈值时,返回答案。
2.3 SQuAD 局限性
  • 只有基于范围内的答案(没有是/否,计数,隐藏的答案)
  • 设计问题时,人们是基于文章构建的,然而现实中人们搜索问题的语法可能多种多样
  • 几乎没有任何多事实以及句子推理

尽管如此,它确实是一个目标明确、结构良好、干净的数据集

  • 在QA数据集上是最常用和最具有竞争力的数据集
  • 是一个非常有用的起点
  • 我们正在使用它

三、Stanford Attentive Reader

Stanford Attentive Reader是斯坦福在2016年的ACL会议上的《A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task》发布的一个机器阅读理解模型。数据集使用的CNN和Daily Mail。

在这里插入图片描述
建立一个问题的表示作为向量

  • 首先找到每个单词的嵌入向量

  • 把每个单词嵌入后的向量放入双向LSTM中编码,抓住两个LSTM的最终状态,拼接在一起,得到隐藏层的最终状态q。
    在这里插入图片描述

  • 需要在文章中找到答案,因此使用得到的q向量,以解决答案在哪里使用注意力。
    根据文章中词语p与问题中词语q之间的相关程度,计算出一个概率分布:
    在这里插入图片描述

  • 其中q为问题Q的最终状态,W为要学习的矩阵,p’_i是P的每个单词经过双向LSTM的向量表达。
    得到注意力得分后,进行加权:
    在这里插入图片描述

  • 预测:上下文加权得到向量o之后,模型就能够基于此输出最有可能的答案。

  • 使用负对数似然函数作为训练的目标函数。
    在这里插入图片描述
    与上一版本的改变:

  • 之前是只使用问题Q的最后一个状态的拼接,而现在我们使用LSTM中的所有状态。(其实在很多NLP任务中,这样做都是非常好的)

  • 使用3层的Bi-LSTM网络

  • 词向量的改变:不仅是只使用简单的词向量,又加入了位置和命名实体识别的标记(用one-hot编码)

  • 加入问题和文章的相似度计算。

四、BiDAF

BiDAF(全称Bi-Directional Attention Flow for Machine Comprehension),是2017年Seo等人在ICIR上提出的模型。其核心思想是:由以往的单向注意力机制转为双向注意力机制。即注意力双向流动——从上下文到问题,从问题到上下文。
在这里插入图片描述

  • 获得相似矩阵
    在这里插入图片描述
  • Context-to-question attention:
    在这里插入图片描述
  • 有一个“建模”层
  • 答案跨度的选择更加复杂
    开始:通过BiDAF和建模层的输出,连接到一个密集的FF层,然后softmax
    结束:将建模层M的输出通过另一个BiLSTM得到M2,然后与BiDAF相连,再次通过稠密FF层和softmax

五、FusionNet

在这里插入图片描述

六、人们在不同年代探索过的不同模型

在这里插入图片描述
除了本节课介绍的一些模型外,还有一些非常好的模型。比如:给予Bert的一些模型在很多数据集上表现非常好。但是不得不说,即使问答系统前景如此广阔,但其背后的技术仍没有达到十分成熟的地步,仍有很大的进步空间。

                                                                      ———徐伟嘉
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值