Bert由来之--word2vec和transformer

本文介绍了从word2vec的skip-gram和CBOW模型到Transformer的演进过程。Transformer抛弃了CNN和RNN,采用全注意力机制,包括self-attention和Feed Forward Network。在Decoder部分,存在两个attention机制,分别处理当前翻译与已翻译内容以及当前翻译与句子语义的关系。位置编码用于引入序列信息。深入理解Transformer的工作原理,有助于更好地理解Bert等后续模型的发展。
摘要由CSDN通过智能技术生成

word2vec -> Transformer -> ELMo -> Bert

word2vec是训练词向量。有skim-gram和CBOW两种形式。

重点:训练样本是一个句子的中心词和周围的词拼接成。
例如skim-gram例如 I love apple very much。以apple 为中心词,窗口大小是2,则可以凑出样本:【apple,love】【apple,I】【apple,very】【apple,much】。样本的前一个input,后一个是output,训练一个词的v_c和U(词向量和outputvector)
CBOW是反过来的,通过周围的词来预测中心词。

Transformer是全部注意力,舍去CNN和RNN架构

例如:机器翻译
在这里插入图片描述

  • encoder的具体长相

在这里插入图片描述
self-attention得到特征向量Z,即下图中的Attention

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值