在Transformer模型的解码器中,掩码机制(masking)起着至关重要的作用,特别是在训练阶段。掩码机制用于确保解码器在计算自注意力时,只能使用当前位置之前的词(包括当前位置),而不能看到当前位置之后的词。这是为了保持因果关系,防止信息泄漏。下面详细说明解码器的掩码机制是如何起作用的,以及如何实现每个时间步的并行处理。
一、掩码机制的作用
在解码器的自注意力层中,掩码机制的主要作用是防止解码器在计算注意力时看到未来的词(即当前位置之后的词),确保生成序列的每个位置只依赖于它之前的位置,从而保持序列生成的因果关系。
二、掩码的具体实现
掩码机制通过一个上三角矩阵来实现,这个矩阵中的元素表示哪些位置应该被掩盖(mask)。具体步骤如下:
1. 生成掩码矩阵
假设目标序列长度为 \( T \),生成一个 \( T \times T \) 的掩码矩阵 \( M \),其中 \( M_{ij} \) 表示第 \( i \) 个位置是否可以看到第 \( j \) 个位置的词。
这个矩阵是一个上三角矩阵的取反,表示第 \( i \) 个位置只能看到自己和之前的位置:
\[
M_{ij} = \begin{cases}
0 & \text{if } i \geq j \\
-\infty & \text{if } i < j
\end{cases}
\]
这里,0 表示不掩盖,-\(\infty\) 表示掩盖。
2. 应用掩码矩阵
在计算注意力得分时,将掩码矩阵应用到查询和键的点积结果上:
\[
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T + M}{\sqrt{d_k}}\right) V
\]
通过将掩码矩阵 \( M \) 加到 \( QK^T \) 上,被掩盖的位置(即未来的词)得到一个极大的负值,经过 softmax 之后这些位置的注意力权重接近于零。
三、掩码机制的效果
掩码机制确保在解码器的自注意力层中:
每个时间步 \( t \) 的注意力计算只基于时间步 \( \leq t \) 的信息。这保持了生成序列的因果关系,防止信息泄漏,使得模型能够正确地学习如何生成序列。
四、实现每个时间步并行处理
尽管掩码机制确保了每个位置只能看到自己和之前的位置,但整个自注意力计算仍然可以并行处理。具体实现如下:
1、 并行计算查询、键、值向量
对于目标序列的所有时间步,分别并行计算查询(Q)、键(K)、值(V)向量。
2、 并行计算注意力得分
使用查询向量 \( Q \) 和键向量 \( K \) 的点积结果,加上掩码矩阵 \( M \),并行计算所有位置的注意力得分。
3、 并行计算注意力加权和
应用 softmax 之后,得到加权注意力得分,再与值向量 \( V \) 相乘,计算加权和。
这些步骤在所有时间步上都是并行进行的,因为掩码矩阵已经确保了因果关系的正确性。
五、示例说明
假设目标序列的长度为 4,掩码矩阵 \( M \) 如下:
\[
M = \begin{pmatrix}
0 & -\infty & -\infty & -\infty \\
0 & 0 & -\infty & -\infty \\
0 & 0 & 0 & -\infty \\
0 & 0 & 0 & 0
\end{pmatrix}
\]
在计算注意力得分时:
\[
QK^T = \begin{pmatrix}
q_1 \cdot k_1 & q_1 \cdot k_2 & q_1 \cdot k_3 & q_1 \cdot k_4 \\
q_2 \cdot k_1 & q_2 \cdot k_2 & q_2 \cdot k_3 & q_2 \cdot k_4 \\
q_3 \cdot k_1 & q_3 \cdot k_2 & q_3 \cdot k_3 & q_3 \cdot k_4 \\
q_4 \cdot k_1 & q_4 \cdot k_2 & q_4 \cdot k_3 & q_4 \cdot k_4
\end{pmatrix}
\]
加上掩码矩阵 \( M \):
\[
QK^T + M = \begin{pmatrix}
q_1 \cdot k_1 & -\infty & -\infty & -\infty \\
q_2 \cdot k_1 & q_2 \cdot k_2 & -\infty & -\infty \\
q_3 \cdot k_1 & q_3 \cdot k_2 & q_3 \cdot k_3 & -\infty \\
q_4 \cdot k_1 & q_4 \cdot k_2 & q_4 \cdot k_3 & q_4 \cdot k_4
\end{pmatrix}
\]
在应用 softmax 后,被掩盖的位置的注意力权重接近于零,确保了每个位置只能看到自己和之前的位置。
六、总结
掩码机制通过在注意力计算中应用上三角矩阵,防止解码器在计算自注意力时看到未来的词,保持了序列生成的因果关系。尽管掩码机制确保了这一点,但整个自注意力计算过程仍然是并行进行的。这种设计允许解码器在训练阶段高效地处理长序列数据,同时保持正确的序列生成顺序。