Transformer 台大李宏毅教授链接 Self-Attention 传统RNN不容易平行化,比如b4就得知道a1,a2,a3,a4才能算出来 使用CNN可以实现平行化,比如图中的一个黄三角形代表一个filter,他可以并行执行的。 在更高层filter的layer可以获取到更长的信息,比如蓝三角形,它的输入时第一层的输出 Self-Attention可以替代双向RNN 可以并行计算 能够获得一个整句的信息 做 attention : 吃两个向量,输出一个分数,代表它会有多匹配