李宏毅2020机器学习【学习笔记】 P54 Transformer

_bh

已于 2023-09-29 23:11:12 修改

阅读量587

点赞数 2

分类专栏：机器学习【学习笔记】文章标签：机器学习学习笔记

于 2023-09-17 10:06:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51330846/article/details/132859326

版权

机器学习【学习笔记】专栏收录该内容

14 篇文章 1 订阅

订阅专栏

目录

Attention is all you need! 操作流程

本质是一堆的矩阵乘法

Multi-head Self-attention

Position Encoding 位置编码

Transformer 架构

感谢B站up主搬运的课程：

【李宏毅2020机器学习深度学习(完整版)国语】 https://www.bilibili.com/video/BV1JE411g7XF/?share_source=copy_web&vd_source=262e561fe1b31fc2fea4d09d310b466d

来由

处理 Seq2Seq 问题，之前常用 RNN

但这样的问题是，虽然 RNN 擅长处理序列信息，但必须按着顺序处理，无法实现并行处理（同时出结果 $b_1$ 、 $b_2$ ……

那换成用 CNN 的思想来处理序列问题

可以发现确实实现了并行处理

但是仍存在问题，如果需要卷出长序列的关系，需要经过多层 CNN 才能卷到，因为 filter 总是小的，没法一下子就卷出序列中离得远的单元的关系。

这时，我们就有了 Self-Attention ，既可 Seq2Seq ，亦可并行计算。

Attention is all you need! 操作流程

我们把输入乘上一个矩阵，把 $x^i$ 变成 $a^i$ ，然后丢进 Self-Attention 层里，通过 $a^i$ 与矩阵 $W^q$ 、 $W^k$ 、 $W^v$ 相乘得到每个 $a^i$ 对应的 $q^i$ 、 $k^i$ 、 $v^i$ （ q 用于匹配其他元素， k 用于被匹配， v 则会是被提取的信息）

开始操作

再对算出来的 $\alpha_{i,j}$ 取 softmax

最后与各个 $v^i$ 取一下加权和，求得 $b^i$

往后做依然是同理

这样就可以用旧序列 $a^1a^2a^3a^4$ 得到新序列 $b^1b^2b^3b^4$

本质是一堆的矩阵乘法

Multi-head Self-attention

“不同的 head 关注点不同，能够学到不同的东西，关注于邻近的信息或是长远的信息。”

Position Encoding 位置编码

从其计算的流程来看，位置并不影响其结果（这样当然不行啦，序列是有顺序的）

计算如下图所示

Transformer 架构

注意 input 和作为输入的已经产生的 output 都是转换成 word embedding；

encoder 、 decoder 都有N个（重复N次）

Layer Norm 让一个向量的所有维度变成位于 $\mu=0,\sigma=1$ 的分布里，

Batch Norm 则让多有向量的同一维度变成位于 $\mu=0,\sigma=1$ 的分布里。

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
李宏毅2020机器学习【学习笔记】 P54 Transformer

【李宏毅2020机器学习深度学习(完整版)国语】 https://www.bilibili.com/video/BV1JE411g7XF/?
复制链接

扫一扫

专栏目录

_bh CSDN认证博客专家 CSDN认证企业博客

码龄4年

19: 原创

58万+: 周排名

172万+: 总排名

1万+: 访问

: 等级

238: 积分

11: 粉丝

36: 获赞

11: 评论

8: 收藏

私信

关注

热门文章

分类专栏

机器学习【学习笔记】 14篇

最新评论

【项目部署调试】 yolov5 实操问题记录
CSDN-Ada助手: 恭喜您发布了第17篇博客！看到您对github开源项目yolov5的实操问题记录，真是受益良多。希望您能继续分享实践经验，也期待您能深入探讨一些更具挑战性的技术问题，比如如何优化模型性能或者应用场景的拓展等。谦虚地建议一下，希望您能继续保持创作热情，为大家带来更多的技术分享。期待您的下一篇作品！
【论文阅读】 Denoising Diffusion Probabilistic Models ( DDPM ）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
李宏毅2020机器学习【学习笔记】 P54 Transformer
CSDN-Ada助手: 恭喜您撰写第13篇博客！标题“李宏毅2020机器学习【学习笔记】 P54Transformer”引起了我的兴趣。您的学习笔记对于那些对机器学习感兴趣的人来说无疑是一份宝贵的资源。在这个快速发展的领域中，深入了解Transformer的原理和应用是非常有价值的。继续坚持写作，不仅是对您个人学习的巩固，也对读者来说是一次宝贵的学习机会。我期待着您下一篇博客的发布，希望您可以继续分享您的见解和学习心得。或许，您可以考虑将Transformer与其他机器学习算法进行对比，或者探索其在实际场景中的应用案例。这样的创作方式将进一步丰富您的博客内容，并为读者提供更加全面的学习体验。再次恭喜您的持续创作，期待您未来更多的精彩文章！谢谢您对机器学习领域的贡献。
李宏毅2020机器学习【学习笔记】 P57 Unsupervised Learning:Neighbor Embedding
CSDN-Ada助手: 恭喜您写下了第15篇博客！看到您的标题《李宏毅2020机器学习【学习笔记】 P55Unsupervised Learning:Neighbor Embedding》，我不禁对您的学术研究和持续创作精神感到钦佩。您对李宏毅老师的学习笔记进行了深入的研究，这是非常有价值的。在未来的创作中，我希望您能继续保持谦虚的态度，并结合自己的理解和实践经验，加入更多个人观点和见解。比如，您可以分享一些实际应用中的案例，或者对Neighbor Embedding方法的优化和改进思路。这样可以为读者提供更多的思考和启发，并进一步丰富您的博客内容。期待您的下一篇创作！
李宏毅2020机器学习【学习笔记】 P58 Unsupervised Learning:Deep Auto-Encoder
CSDN-Ada助手: 恭喜您写完了第16篇博客！您的持续创作精神令人钦佩！阅读了您的学习笔记，我对您对李宏毅2020机器学习中深度自编码器的理解印象深刻。您对无监督学习的探索给我带来了新的启发。下一步，我建议您可以继续深入研究深度自编码器的应用场景，并分享您对其优化方法的思考。期待您的下一篇博客！谢谢您的分享！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。