自注意力机制-李宏毅

最新推荐文章于 2023-11-27 09:50:38 发布

ChiruZy

最新推荐文章于 2023-11-27 09:50:38 发布

阅读量784

点赞数 1

文章标签：计算机视觉深度学习神经网络自然语言处理

本文链接：https://blog.csdn.net/weixin_51917840/article/details/118894247

版权

Self-Attention 李宏毅2021笔记

解决的问题

Self-Attention 考虑输入的不同部分之间的相关性

基础计算方式

假设 $a^1, a^2, a^3,a^4$ 为输入的四个部分，或是来自上一个隐藏层的输出，要考虑他们之间的关联性，并输出 $b^1,b^2,b^3,b^4$ 。

单个输出的计算方式如上图所示，其中 query、key、value 均通过输入乘以矩阵 $W^q,W^k,W^v$ 计算而来，且该参数可以学习。

计算 $a^1$ 与其他部分的输入关系，即将 $a^1$ 乘以矩阵 $W^q$ 得到其对应 query $q^1$
将所有的输入部分乘以 $W^k$ 得到对应 key $k^1, k^2, k^3, k^4$ （此处包括计算 $a^1$ ）
将 $q^1$ 与 $k^1, k^2, k^3, k^4$ 分别相乘得到他们之间的关联程度 $\alpha_{1,1},\alpha_{1,2},\alpha_{1,3},\alpha_{1,4}$
将 $\alpha_{1,1},\alpha_{1,2},\alpha_{1,3},\alpha_{1,4}$ 做 softmax 处理，使其权值相加为 1，得到 $\alpha_{1,1}',\alpha_{1,2}',\alpha_{1,3}',\alpha_{1,4}'$
使用 $a^1, a^2, a^3,a^4$ 乘以 $W^v$ 得到对应 value $v^1, v^2, v^3,v^4$
将 $\alpha_{1,1}',\alpha_{1,2}',\alpha_{1,3}',\alpha_{1,4}'$ 与对应 $v^1, v^2, v^3,v^4$ 相乘后并相加即可得到输出 $b^1$

向量化计算方式

$Denote.\quad Q = [q^1, q^2, q^3, q^4],\quad K = [k^1, k^2, k^3, k^4],\quad I = [a^1, a^2, a^3, a^4]\\[1em] Q = W^q I\\ K = W^k I$

$Denote.\quad A_1 = [\alpha_{1,1}, \alpha_{1,2}, \alpha_{1,3}, \alpha_{1,4}]\\[1em] A_1^T = K^T q^1$

$A = [A_1^T , A_2 ^T , A_3^T, A_4^T] = K^T Q$

$\operatorname{softmax} (A)$

$Denote.\quad V = [v^1, v^2, v^3, v^4]\\[1em] V = W^v I\\ O = [b^1, b^2, b^3, b^4] = VA'$

即

$W^v I\operatorname{softmax}((W^k I)^T W^q I)$

需要学习的参数只有 $W^q, W^k, W^v$ 。

Multi-head Self-attention （MHSA）

MHSA 与常规 Self-attention 的区别为：每一个部分输入有多个 $W^q、W^k、W^v$ 。

如有输入 $a^1, a^2,\cdots,a^n$ ，设 head 的数量为 M，则对于任意 $a^i$ 对应有 query $q^{i,m}$ ，也有对应 key $k^{i,m}$ ，value $v^{i,m}$ 其中 $1,2,\cdots, M$ 。

得到 $a^i$ 的 M 个 $q$ 后，让所有项的 $k$ 与其对应相乘，即 $q^{i,1}$ 分别乘以 $k^{j,1}$ ， $q^{i,2}$ 分别乘以 $k^{j,2}$ 其中 $1\cdots n$ ，得到 $\alpha^{i,j,m}$ ，其中 $1,2,\cdots, M$ 。将他们进行 softmax 操作之后同样乘以各项的 value并相加得到 $b^{i,m}$ 即:
$b^{i,m} = \sum_{j=1}^Nv^{j,m}\alpha^{i,j,m}$
$b^i$ 的计算方式为，将 $b^{i,1},b^{i,2},\cdots,b^{i,m}$ 做 concat 操作后，再通过一个全连接层得到：
$b^i = W[b^{i,1},b^{i,2},\cdots,b^{i,m}]$

以上为 MHSA 的做法。

ChiruZy

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
自注意力机制-李宏毅

Self-Attention 李宏毅2021笔记解决的问题Self-Attention 考虑输入的不同部分之间的相关性基础计算方式假设a1,a2,a3,a4a^1, a^2, a^3,a^4a1,a2,a3,a4为输入的四个部分，或是来自上一个隐藏层的输出，要考虑他们之间的关联性，并输出b1,b2,b3,b4b^1,b^2,b^3,b^4b1,b2,b3,b4。单个输出的计算方式如上图所示，其中 query、key、value 均通过输入乘以矩阵 Wq,Wk,WvW^q,W^k,W^vWq,
复制链接

扫一扫