类型 对于输入n个向量,网络输出 m 个向量,即输出的个数由机器自己决定,我们称作 seq2seq 任务 Self-Attention架构,输入一排向量,输出一排向量,输出的每一个向量都考虑了 这个sequence。 对于向量a1,对于每一个其他向量都有一个相关性,有α表示。 self-attention的计算方法