2020李宏毅机器学习笔记-Pointer Network

目录

概述

1. Introduce

2. Pointer Network

3. Applications

3.1 Summarization

3.2 Machine Translation

3.3 Chat-bot

总结和展望


概述

本节主要讲的是Pointer Network,即指针网络。因为传统的seq2seq模型是无法解决输出序列的词汇表会随着输入序列长度的改变而改变的问题的,而提出Pointer Network,它预测的时候每一步都找当前输入序列中权重最大的那个元素,而由于输出序列完全来自输入序列,它可以适应输入序列的长度变化。最后讲了Pointer Network的许多方面的应用,都离不开“复制”这个功能。

1. Introduce

问题的原始描述是有一堆的点,要找出最外围的点,使得这些点连起来,能够包围所有的点。
这个本来是一个算法可以解决的问题,现在我们用NN来解决:

把所有点的坐标丢到NN里面,要求得到最外围点的下标。这个问题实际上可以看做是Sequence-to-sequence问题。

Sequence2Sequence(简称seq2seq)模型是RNN的一个重要的应用场景,顾名思义,它实现了把一个序列转换成另外一个序列的功能,并且不要求输入序列和输出序列等长。

可以看到,输入的Sequence是所有的点,输出的Sequence是包围所有点的点。

 

这个模型是不行的,因为输入和输出的点的数量是不固定的。输入长度不固定好解决,但是输出不固定不好弄。

传统的seq2seq模型是无法解决输出序列的词汇表会随着输入序列长度的改变而改变的问题的,如寻找凸包等。因为对于这类问题,输出往往是输入集合的子集。基于这种特点,考虑能不能找到一种结构类似编程语言中的指针,每个指针对应输入序列的一个元素,从而我们可以直接操作输入序列而不需要特意设定输出词汇表。给出的答案是指针网络(Pointer Networks)。我们来看给出的一个例子:

 

这个图的例子是给定p1到p4四个二维点的坐标,要求找到一个凸包。显然答案是p1->p4->p2->p1。图a是传统seq2seq模型的做法,就是把四个点的坐标作为输入序列输入进去,然后提供一个词汇表:[start,1,2,3,4,end],最后依据词汇表预测出序列[start,1,4,2,1,end],缺点也提到过了,对于图a的传统seq2seq模型来说,它的输出词汇表已经限定,当输入序列的长度变化的时候(如变为10个点)它根本无法预测大于4的数字。(Encoder可以处理任意长短序列,但是Decoder却不行)图b是提出的Pointer Networks,它预测的时候每一步都找当前输入序列中权重最大的那个元素,而由于输出序列完全来自输入序列,它可以适应输入序列的长度变化。

2. Pointer Network

解决方法是用上节讲过的attention based 模型的思想(What decoder can output depends on the input.)

我们首先来看传统注意力机制的公式:

v,W1,W2都是可学习的参数,在得到之后对其执行softmax操作即得到。这里的就是分配给输入序列的权重,依据该权重求加权和,然后把得到的拼接(或者加和)到decoder的隐状态上,最后让decoder部分根据拼接后新的隐状态进行解码和预测。

根据传统的注意力机制,所谓的正是针对输入序列的权重,完全可以把它拿出来作为指向输入序列的指针,在每次预测一个元素的时候找到输入序列中权重最大的那个元素不就好了嘛!于是就按照这个思路对传统注意力机制进行了修改和简化,公式变成了这个样子:

第一个公式和之前没有区别,然后第二个公式则是说Pointer Networks直接将softmax之后得到的当成了输出,让承担指向输入序列特定元素的指针角色。

下面我们看几个图来理解一下:

 

先有一个z0,然后用z0和所有的点做attention 操作,不同的是,得到的结果不做加权求和,而是直接做归一化,然后去概率最大的那个。例如,上图中1号点概率为0.5最大。然后把1号点作为输入生成z1,

然后做attention并求分布最大值,得到4号点

以上步骤不断重复,直到The process stops when "END"has the largest attention weights.

现在这样做的好处是,Decoder的长度是取决于Input,输入100个点,就有100个选择,模型会不断输出,直到END的机率最大才停止。

3. Applications

3.1 Summarization

做摘要就是在文章里面取一些重要的词汇,然后拼接起来。
 

3.2 Machine Translation

在翻译的过程中,经常会遇到专有名词,例如人名、地名。可以用Pointer Network直接把对应原文的名词抽取出来,直接贴过去。

3.3 Chat-bot

对话的过程也是一样,如果是普通的seq2seq模型,这里可能学不到,因为库洛洛这个词根本不在词库里面。所以用Pointer Network直接贴过来最好。

 

总结和展望

由于Pointer Networks天生具备输出元素来自输入元素这样的特点,于是它非常适合用来实现“复制”这个功能。另外由于摘要这个任务所需的词汇较多,也非常适合使用复制的方法来复制一些词。这就造成了目前Pointer Networks成为文本摘要方法中的利器的局面。那么未来Pointer Networks的应用会走向什么方向呢?当然也会和“复制”这个关键词分不开。至于更多创新应用,我们拭目以待。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值