Synthesizer: Rethinking Self-Attention in Transformer Models
这篇论文通过替换 Q × K T Q \times K^{T} Q×KTattention矩阵,发现Self-Attention中query-key-value dot product attention并不是不可或缺的。作者分别提出了Dense SynSynthesizer Model和 Random Synthesizer Model对Transformer进行比较研究。
SYNTHESIZER model
Dense SynSynthesizer:
将 Q × K T Q \times K^{T} Q×KTattention矩阵替换成经由两层前馈层的网络训练得到的矩阵。直观上看,就是将每个token(长度: d d d)映射成一个长度为 l l