Attention Is All You Need 注意力机制的文章

Attention Is All You Need 注意力机制的文章

论文原文 Vaswani A , Shazeer N , Parmar N , et al. Attention Is All You Need[J]. arXiv, 2017. https://arxiv.org/abs/1706.03762

最新的三维视觉研究中引入了Attention(注意力机制),学习原文可能会有更多的收获

目前主流的序列转导模型主要应用cnn或rnn,性能最好的模型还通过注意力机制连接编码器和解码器。作者提出了一种新的简单网络架构,即 Transformer,它完全基于注意力机制,完全消除了递归和卷积(即RNN与CNN)。 这个模型在翻译上取得了很好的效果。

绝大多数神经序列转导模型都具有编码器-解码器结构,编码器将符号表示的输入序列 (x1; :::; xn) 映射到连续表示的序列 z = (z1; :::; zn)。 给定 z,解码器然后生成一个符号的输出序列 (y1; :::; ym),一次一个元素。 在每一步,模型都是自回归的 [10],在生成下一个时,将先前生成的符号作为额外的输入使用。
Transformer 遵循这种整体架构,使用堆叠的自注意力和逐点、完全连接的编码器和解码器层,分别如图 1 的左半部分和右半部分所示

image-20211126171059369

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值