word2vec -> Transformer -> ELMo -> Bert
word2vec是训练词向量。有skim-gram和CBOW两种形式。
重点:训练样本是一个句子的中心词和周围的词拼接成。
例如skim-gram例如 I love apple very much。以apple 为中心词,窗口大小是2,则可以凑出样本:【apple,love】【apple,I】【apple,very】【apple,much】。样本的前一个input,后一个是output,训练一个词的v_c和U(词向量和outputvector)
CBOW是反过来的,通过周围的词来预测中心词。
Transformer是全部注意力,舍去CNN和RNN架构
例如:机器翻译
- encoder的具体长相
self-attention得到特征向量Z,即下图中的Attention