文章目录 非参注意力池化层 参数化的注意力机制 注意力分数 拓展到高维度 Additive Attention Scaled Dot-Product Attention 总结 使用注意力机制的seq2seq 加入注意力 Encoder 总结 自注意力机制 自注意力 跟CNN,RNN对比 位置编码 位置编码矩阵 相对位置信息 总结 transformer Transformer架构 多头注意力 有掩码的多头注意力 基于位置的前馈网络 层归一化 信息传递 预测 总结 非参注意力池化层 给定数据 ( x i , y i ) , i = 1 , … … , n