（深度学习记录）第TR3周：Transformer 算法详解

糖圆同学

已于 2024-05-31 14:54:47 修改

阅读量333

点赞数 4

文章标签：深度学习 transformer 人工智能

于 2024-05-31 14:51:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55952636/article/details/139352074

版权

🍨 本文为🔗365天深度学习训练营中的学习记录博客
🍖 原作者：K同学啊 | 接辅导、项目定制

·文本的输入处理中，transformer会将输入文本序列的每个词转化为一个词向量，我们通常会选择一个合适的长度作为输入文本序列的最大长度如果一个句子达不到这个长度就用0填充，超出就做截断。

·self- attention机制可以让模型不仅仅关注当前位置的词，还关注句子中其他位置相关的词。

·transformer解码器预测了组概率，就可以将这组概率与正确的概率做对比，然后用反向传播来调整模型的权重，使得输出的概率分布更加接近整数输出。

目标的概率分布：

经过长期的训练后，希望输出的概率分布如下图所示：

关注

4
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
（深度学习记录）第TR3周：Transformer 算法详解

文本的输入处理中，transformer会将输入文本序列的每个词转化为一个词向量，我们通常会选择一个合适的长度作为输入文本序列的最大长度如果一个句子达不到这个长度就用0填充，超出就做截断。·transformer解码器预测了组概率，就可以将这组概率与正确的概率做对比，然后用反向传播来调整模型的权重，使得输出的概率分布更加接近整数输出。·self- attention机制可以让模型不仅仅关注当前位置的词，还关注句子中其他位置相关的词。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。