Ankur Bapna, Mia Chen, Orhan Firat, Yuan Cao, and Yonghui Wu. 2018. Training Deeper Neural Machine Translation Models with Transparent Attention. In Proceedings of EMNLP. Brussels, Belgium, 3028–3033. https://doi.org/10.18653/v1/D18-1338 \url{https://doi.org/10.18653/v1/D18-1338} https://doi.org/10.18653/v1/D18-1338
transformer 由编码层和解码层组成, 编码层只有最后一层的输出被解码层采用. 这意味着 编码层 的错误信号会随着编码器的深度传播. 这使得 transformer 受梯度消失或者爆炸问题困扰.
透明注意力是 将编码层的各层输出 加权后 作为 解码层各层的 (来自编码层的)输入.
假设 transformer 由 N 个 编码层(输出为 H i H_i Hi) 和 M 个 解码层(来自编码层的输入为 H ^ i \hat{H}_i H^i).
H ^ j : = ∑ i = 1 N e W i , j ∑ k = 1 N e W k , j H i \hat{H}_j:=\sum_{i=1}^N\frac{e^{W_{i,j}}}{\sum_{k=1}^N e^{W_{k,j}}}H_i H^j:=i=1∑N∑k=1NeWk,jeWi,jHi