—0526在啃黄瓜,已经看了一会沐沐叻。
1、Trandformer
看着看着简直要喷黄瓜了hhhhhhhh。
Tranformer也挺简单的,我一张ppt就讲完了。
不过这张ppt做的挺好的hhhh

-------0600看完了transformer,但对应代码还没看,看了多头的代码。打算先code一下。
越来越觉得数学美了(主要是自己渐渐能看懂了),美就美在明确、简洁。
2、多头注意力

我只想说,ipad+pencil真的是学习dl神奇。维度之间的事情,用笔画一画就可以解决了。
—0720
数学推导太爽了!!收拾宿舍去!
----0816回来把的多头注意力的代码写完了、趴一会,去看看夏一部分了。
–0830开始开始!
3\多头自注意力机制
其实就是把q,和k-v都换成是自己。
刚刚的多头注意力,q是x,k-v是y。也就是q和k-v不一样。


—0905听着听着感觉代码量好大哇~但也正是提高的机会呢!
4、Transformer
1\Transformer 完全基于注意力机制,没有任何卷积或者循环神经网络的操作。
本文详细介绍了Transformer模型,重点讨论了自注意力机制和多头注意力,包括编码器的多头自注意力层和逐位前馈网络,以及解码器的掩蔽多头注意力和普通注意力。此外,还探讨了层规范化、输入嵌入缩放以及Transformer的工作原理。
最低0.47元/天 解锁文章
3921

被折叠的 条评论
为什么被折叠?



