论文《Attention is all you need》
一
输入:N维向量
输出:N个lable:class/sclar (词性判断)
一个label: class/sclar(一个句子判断褒贬,听声识人)
未定数量的lable,数量由机器学习(seq2seq,翻译,语音辨识)
二 输出为N个label
N 是个不确定的值,具体例子为输入一句话,每句话的长短不一样。
要考虑整个句子间的联系,window就要尽可能大,过大参数会过多,并且要统计训练样本最长的句子取window,引用自注意力机制
三.self attention
输入独立的向量,输出有联系的向量,再丢进fully connect 训练
self attention 与 fully connect交替使用,self attention专注于处理整个seq信息,fully connect处理单个向量。
计算每一个向量之间的联系,相关性用(attention score)表示
的计算方法:
softmax或relu
由a得到b的过程,b1.b2...同时得到。
矩阵理论解释self attention
多头自注意力机制
添加位置信息(positional encoding)
四.应用
image
CNN是简单化的self attention
《on the relationship between sele_attention and convolutional layers》