参考文献 Predictive Attention Transformer: Improving Transformer with Attention Map Prediction
PA-transformer 的想法是将 Q K T / N QK^T/\sqrt{N} QKT/N 做两种处理, 一是正常的 encode 到 下一个 encode 的 Q K T / N QK^T/\sqrt{N} QKT/N
参考文献 Predictive Attention Transformer: Improving Transformer with Attention Map Prediction
PA-transformer 的想法是将 Q K T / N QK^T/\sqrt{N} QKT/N 做两种处理, 一是正常的 encode 到 下一个 encode 的 Q K T / N QK^T/\sqrt{N} QKT/N