低秩自注意力

本文探讨了如何通过使用带状矩阵和低秩矩阵来优化自注意力机制,以实现线性复杂度。Linformer提出的方法减少了参数数量,降低了过拟合风险。通过对注意力权重矩阵进行截断和平移操作,实现了对自注意力的近似,同时保持了计算效率。
摘要由CSDN通过智能技术生成

自注意力一般是低秩的, 证明参考
Linformer: Self-Attention with Linear Complexity 定理 1.
这也比较容易猜测出来. 因为文本词汇大多数依赖于自己距离很近的词汇, 较少依赖距离较远的词汇.
这意味着可以使用 两个矩阵逼近 W Q W^Q WQ 或者 W K W^K WK. 其中一个矩阵是带状矩阵, 另一个是稀疏低秩矩阵. 明显带装矩阵只有下图蓝色部分需要确定, 其余为0. 在这里插入图片描述低秩矩阵可以看成是小矩阵的乘积.
假定正常 注意力机制 权重矩阵为
A : = H W Q ( W K ) T H T , A:=HW^Q(W^K)^TH^T, A:=HWQ(WK)THT,
W Q , W K W^Q,W^K WQ,WK 都是 d × d d \times d d×d 矩阵.

构作 d × r d \times r d×r 矩阵 W l Q , W l K W_l^Q,W_l^K WlQ,WlK, 其中 r ≪ l ≪ d r \ll l \ll d rld.
A l : = H W l Q ( W l K ) T H T A_l:=HW_l^Q(W_l^K)^TH^T Al:=HWlQ(WlK)THT.
这会明显减少所需要确定的参数,从而提高效率降低过拟合.

对一个句子 H H H, 他的 第 i 个词汇(token) 对第 j个词汇的 注意力概率为 a i , j a_{i,j} ai,j

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值