Talking-Heads Attention

吴云理

于 2021-12-23 16:45:56 发布

阅读量2.7k

点赞数

文章标签：矩阵机器学习线性代数自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wuyuanli_r/article/details/122105860

版权

多头注意力机制各头独立进行, Talking-Heads 即交头接耳.

注意力机制

已知矩阵 $Q_{n_1 \times d_k}$ , $K_{n_2 \times d_k}$ , $V_{n_2\times d_v}$ , 注意力
$\operatorname{ Attention}(Q,K,V):= \hat{A}V:=\operatorname{ Softmax}(\frac{QK^T}{\sqrt{d_k}})V.$
将 $V$ 记为 $\left( \begin{array}{c} v_{1} \\ \vdots \\ v_{n_2} \end{array} \right)$ . 可以将 $v_i$ 想象成第 i 个词汇的向量. 注意力的第 i 个行向量为

$z_i:=(\sum_k\hat{A}_{i,k}V_{k,1}, \cdots, \sum_k\hat{A}_{i,k}V_{k,d_v} )=\sum_k \hat{A}_{i,k}v_k.$

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Talking-Heads Attention

多头注意力机制各头独立进行, Talking-Heads 即交头接耳.注意力机制已知矩阵 Qn1×dkQ_{n_1 \times d_k}Qn1×dk, Kn2×dkK_{n_2 \times d_k}Kn2×dk, Vn2×dvV_{n_2\times d_v}Vn2×dv, 注意力Attention⁡(Q,K,V):=A^V:=Softmax⁡(QKTdk)V.\operatorname{ Attention}(Q,K,V):= \hat{A}V:=\operatorname{
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。