Transformer的input没有位置概念,需要 Positional Encoding / Positional Embedding 其实就是在 a i a^i ai加上一个 e i e^i ei,这个 e i e^i ei是根据某种embedding算法求出来的值,想让网络learn出位置信息 对比不同的positional embedding算法的论文: g算法的论文: