Transformer

最新推荐文章于 2024-07-11 14:06:01 发布

chourimu

最新推荐文章于 2024-07-11 14:06:01 发布

阅读量593

点赞数

文章标签： transformer 机器翻译深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45646076/article/details/123300950

版权

这里写自定义目录标题

Transformer
- Encoder-Decoder模型缺陷
- Decoder

Transformer

Encoder-Decoder模型缺陷

与其说是 Encoder-Decoder 的局限，不如说是 RNN 的局限，在机器翻译中，输入某一序列，通过 RNN 将其转化为一个固定向量，再将固定序列转化为输出序列，即上面所讲的将英文翻译成中文。

不管输入序列和输出序列长度是什么，中间的「向量 c」长度都是固定的。所以，RNN 结构的 Encoder-Decoder 模型存在长程梯度消失问题，对于较长的句子，我们很难寄希望于将输入的序列转化为定长的向量而保存所有有效信息，即便 LSTM 加了门控机制可以选择性遗忘和记忆，随着所需翻译的句子难度怎能更加，这个结构的效果仍然不理想。

Decoder

使用mask的原因是因为在预测句子的时候，当前时刻是无法获取到未来时刻的信息的。
可以理解为 mask-self-attention是计算当前翻译的内容和已经翻译的前文之间的关系，而encoder-decoder-attention 是计算当前翻译内容和编码的特征向量之间的关系。最后再经过一个全连接层，输出decoder的结果。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer

小问题
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。