- 博客(2)
- 收藏
- 关注
原创 学习笔记-----Self-Attention自注意力机制
当d变得很大时,中的元素的方差也会变得很大,如果中的元素方差很大,那么的分布会趋于陡峭(分布方差大,分布集中在绝对值大的区域)。是一个矩阵乘以它的转置,矩阵本身的运算是第一行乘第一列,第一行乘第二列......,第二行乘第一列,第二行乘第二列......,......。因此,一个矩阵乘以它的转置矩阵时,转置后的第一列就是转置前的第一行,这就是在计算第一个向量与自己的。Softmax之后,这些数字的和为1,attention的核心机制就是。的一个列向量相乘,得到一个新的行向量,且这个行向量与x的维度相同。
2023-07-07 10:59:05 232 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人