Transformer and Pretrain Language Models3-3

本文探讨了注意力机制如何解决信息瓶颈、缓解RNN中的梯度消失问题,以及提高神经网络的可解释性。通过实例分析,注意力机制实现了短软对齐,增强了模型在机器翻译等NLP任务中的性能。
摘要由CSDN通过智能技术生成

insights of attention注意力机制的特点

我们引入的attention机制到底给端到端的模型带来了什么变化?

1、信息瓶颈问题:注意力机制的出发点首先就是为了解决信息瓶颈问题而存在的,这样我们通过注意力机制decoder端在每次生成的时候,都可以直接关注到encoder端所有位置的信息,信息瓶颈的问题就可以有效地解决了

2、注意力机制同样很有效地缓解了RNN中的梯度消失的问题,它通过在encoder和decoder之间提供了一种直接连接方式,防止了梯度在RNN中会传播过长,进而导致梯度消失

3、注意力机制也给神经网络这样一个黑匣子的模型,提供一定的可解释性,我们通过将decoder端每次的注意力分布可视化,我们可以画出右边这样的一个图,黑色表示注意力分数比较低,越接近白色,表示这个值越高。我们可以看到对于前面机器翻译的这样一个任务,注意力机制其实实现了一种短软对齐的策略,它翻译得到的英文单词会更加关注和表示相同含义的中文单词,比如这里的many更多和airport机场,这样的一个可视化,我们也可以发现模型在一定程度上,学习到这两个语言中一种语义的对齐关系,所以总体来看,注意力机制给RNN带来了很多有益的改变,而且极大地提高了RNN在不同的NLP任务上的表现

  • 6
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值