读论文——Transform

最新推荐文章于 2024-04-02 00:09:08 发布

前行follow

最新推荐文章于 2024-04-02 00:09:08 发布

阅读量1.3k

点赞数

分类专栏： # 自然语言处理文章标签：深度学习神经网络自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/y1040468929/article/details/121429939

版权

自然语言处理专栏收录该内容

15 篇文章 3 订阅

订阅专栏

第一遍

题目：Attention is all you need
作者：Ashish Vaswani 谷歌大脑实验室
摘要：
1. 提出一个纯使用注意力机制的编码-解码器
2. 优点：机器翻译任务上，模型具有更好的表现，且训练时间更短（并行能力强）
3. Transformer成功用于英语的constituency parsing
结论：
1. 展望：使用局部的受限自注意力机制去处理图片、语音和视频

第二遍

重要的图和表

图1 模型结构

主要由编码器和解码器组成，
图 2. 按比例点乘注意力模块
- 注意力机制的理解，Q表示查询，K-V表示键值对，还有输出，它们都是向量。
- 输出可以理解为V的某种加权和
- 加权值的获取是通过Q去查询K
- 个人理解：K-V是字典，Q可以在字典中查询到它表示的含义。
多头注意力，可以看成是图片中的多个通道，对应于文字就是多语义空间
Table 1.

n表示序列长度，d是隐藏层维度，k表示卷积核尺寸，r表示受限自注意力的窗口大小
Table 2.

比较Tranformer和其他模型在两个任务上的BLEU和时间花费
Table 3.

调整模型超参数的结果
Table 4.

第三遍

介绍
1. 循环神经网络顺序计算的约束限制了并行
2. 注意力机制允许对依赖关系建模，而不考虑它们在输入或输出序列中的距离
回顾
1. 自我注意(Self-attention)，有时也称为内部注意(intra-attention)，是一种将单个序列的不同位置联系起来，以计算该序列的表示的注意机制。

模型框架

编码器

多头自注意力层+对应位置的前馈网络

解码器

额外增加了带掩码的自注意力层
注意力机制
1. 按比例缩小的点乘注意力机制
  
  按比例缩小的原因：
  1. 向量点积衡量的是两个向量在高维空间中的距离，那么空间维度越大，这个值可能偏大或者偏小，偏小没有影响，那么dk越大，在softmax中容易向量两端值较大，中间的值较小，不利于softmax反向传播
  2. 对于文本来说，句子越长就越难描述其中相距较远的两个词，因此通过同比例缩小可以缓解

多头注意力机制

注意力类型	QKV
编码-解码注意力	Q来自之前的解码器，KV来自当前的编码器的输出
编码-编码注意力	QKV都来自上一层编码器的输出
解码-解码注意力	QKV都来自上一层解码器的输出，但是需要mask之前的位置

基于位置的前馈网络
1. 带有ReLU的隐藏层
位置编码

为什么自注意力
1. 计算复杂度降低了且可以并行
2. 神经网络中远程依赖关系之间的路径长度降低了。
训练过程
结论

问题

问题	来源	解决
什么是自回归	图1	过去时刻的输出也可以作为下一时刻的输入
constituency parsing	摘要	成分句法分析
计算复杂度的方法	表1	计算序列长度为n，token维度为d
记忆约束限制了跨示例的批处理	介绍	无法并行

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
读论文——Transform

第一遍题目：Attention is all you need作者：Ashish Vaswani 谷歌大脑实验室摘要：提出一个纯使用注意力机制的编码-解码器优点：机器翻译任务上，模型具有更好的表现，且训练时间更短（并行能力强）Transformer成功用于英语的constituency parsing结论：展望：使用局部的受限自注意力机制去处理图片、语音和视频第二遍重要的图和表图1 模型结构主要由编码器和解码器组成，图 2. 按比例点乘注意力模块注意
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。