注意力
文章平均质量分 95
weixin_50030143
这个作者很懒,什么都没留下…
展开
-
Transformer总体结构+可视化理解
以处理“它”这个词为例,自注意力机制会计算“它”与句子中所有其他词(包括“这只动物”、“没有”、“过”、“马路”、“因为”、“太”、“累了”)的相关性分数。可以发现,当对“it”这个词进行编码时,一个注意力头主要关注“动物”,而另一个注意力头则关注“累”——从某种意义上说,模型对“it”这个词的表示“动物”和“累”。(这里的位置编码方式上下不一样,因为对应的公式是不一样的,这也体现出了位置编码可以选取的方式是多样的,采用sin-cos的方式并不是唯一)最终的输出是该层的输入与前馈神经网络输出的和。原创 2024-05-27 23:59:03 · 804 阅读 · 0 评论 -
Attention 理解+过程可视化
Visualizing A Neural Machine Translation Model (Mechanics of Seq2seq Models With Attention)笔记原创 2024-05-27 18:52:42 · 1126 阅读 · 0 评论