![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Transformer
文章平均质量分 94
小殊小殊
为人在世 幸遇升平 自当立一番好言 行一番好事业
展开
-
Transformer论文解读
Transformer有多牛逼不用多说,时隔7年我们再来看看论文原文,看看这篇深刻改变世界的文章都说了什么。当然逐字逐句解读已经意义不大,我们只列考点。原创 2024-06-11 09:30:20 · 921 阅读 · 7 评论 -
Transformer:加性注意力还是点积注意力?这是个问题~
加性注意力(Additive Attention)和点积注意力(Multiplicative Attention,也称为缩放点积注意力,Scaled Dot-Product Attention)是两种常见的注意力机制,用于计算不同序列元素之间的相关性。加性注意力最初用在seq2seq;点积注意力最初用在Transformer。总的来说点积注意力更符合当下的NLP模型,使用的更广泛。原创 2024-06-04 10:00:05 · 1182 阅读 · 10 评论