self-attention结构

博客探讨了RNN/LSTM在序列模型中的局限性,指出在翻译任务中,decoder在训练和生成时输入的不同。文章提到,Transformer的encoder和decoder使用了self-attention层,解决了RNN的深度限制问题。在Decoder部分,除了self-attention,还有encoder-decoder attention层,以处理位置信息。通过预先在词向量中加入位置向量,并用加法融合,解决了词序问题。此外,提到了ELMO利用双向LSTM训练词向量的方法。
摘要由CSDN通过智能技术生成

decoder端输入训练时是对应的句子和encoder的output,

那生成时不知道翻译的结果输入的是什么呢?

decoder端跟lstm类似也是一个时序模型,输入的是上一个词的向量与encoder最后一层的feed forward。

生成时刚开始输入的为<start>的词向量。

 

关于位置信息:提前在训练的词向量里加了一个表示位置的向量进入模型进行训练,解决词序问题。

词向量与位置向量是加法不是拼接。每个位置的向量是人为定的。通过一个公式。

ELMO:双向LSTM训练得到的词向量。

 

RNN/LSTM存在问题 :

模型“竖着的方向”不会很深。一般两层。

 Transformer结构:

encoder和decoder两部分

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值