Seq2seq学习记录（三）

LLC74

已于 2024-09-12 14:09:43 修改

阅读量917

点赞数 7

分类专栏：深度学习文章标签：学习笔记

于 2023-12-06 19:52:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_73989383/article/details/134719537

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

参考文章：【神经网络】学习笔记十四——Seq2Seq模型_昔我往矣wood的博客-CSDN博客

Seq2Seq 模型详解_seq2seq模型-CSDN博客

一、seq2seq模型

seq2seq即序列到序列模型，为Encoder-Deconder结构，是将输入序列通过特定方法生成另一个序列的模型，输入和输出的序列可以不等长，解决了RNN中要求序列等长的问题。

二、模型结构

2.1 RNN结构

RNN中，每个单元接受两个数入，当前单元的输入信息Xt和上一层的隐藏层状态H(t-1)。RNN之所以比较适合用来做文本等序列数据的原因，正是因为隐藏层具有记忆性，可以根据不同的输入和输出来调整RNN的结构。

2.2 seq2seq模型

该模型由编码器、语义向量C和解码器三部分构成，C负责连接编码器和解码器。

此时的编码器和解码器都对应一个RNN，通常是LSTM和GRU。

Eecoder:负责将输入的语句压缩成指定长度的向量

Decoder:将语义向量C解码并输出语句。

三、Seq2Seq训练原理

普通的RNN训练，就是学习概率分布，然后预测，比如输入前t个时刻数据，预测输出t时刻的数据。一般在输出层（即预测结果层使用softmax函数），得到概率分布，概率最大的就为预测结果。

解码Decoder阶段，每次都要参照中间向量C（Attention会用到），C并不是只作为初始状态参与。

LSTM虽然具有记忆性，但是当Encoder输入的序列过长时，解码阶段的LSTM无法对过早输入的序列解码，因此提出了Attention。每次进行预测时，都会把所有输入序列的隐藏层信息都看一遍，决定当前预测的词和输入序列的哪些词最相关，从而提高预测的质量。

四、Attention机制的计算原理

Attention机制表示在解码Decoder阶段，有三个输入，S(i-1)为解码上一阶段的隐藏状态，yi为上一阶段的预测输入，Ci为本次预测所对应的编码阶段上下文向量。Si为本次解码的新状态，由三者的非线性函数得出。

S(i-1)为解码阶段上一个状态的隐藏状态和预测输出值，C(i)是编码每个时刻输出的加权平均和。

aij是输入i对应的状态h(j)的权重大小。

eij求解公式如下：

五、数据进行处理和训练的流程

以人机对话为例

1-假设存在一个拥有10000个对答的训练样本，我们统计得到1000个互异的字和每个字出现的次数。

2-我们将得到的这1000个字按照数量按照从多到少排序，得到一个0-999的字典表。

3-我们根据字典表，对这些问答句进行one-hot编码。

4-由于编码难度较大且0多，我们用Enbedding进行降维得到特征矩阵。

5-将特征矩阵作为输入，预测得到数量为1000的分类器，哪个概率最大，预测所得就是那个字。

？：向量C一般作为解码器的初始状态h0，也可以每一步都参与运算。

关注

7
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

LLC74 CSDN认证博客专家 CSDN认证企业博客

码龄2年

5: 原创

121万+: 周排名

11万+: 总排名

4600: 访问

: 等级

109: 积分

69: 粉丝

58: 获赞

3: 评论

83: 收藏

私信

关注

热门文章

分类专栏

前端学习 1篇
深度学习 4篇

最新评论

Seq2seq学习记录（三）
CSDN-Ada助手: 恭喜您写完了第三篇博客！看到您能够持续创作并分享学习笔记，真是令人钦佩。从标题来看，我猜测您在这篇博客中可能会分享Seq2seq的学习心得和经验。不过，谦虚地说，我期待您能进一步深入探讨Seq2seq的应用场景和优化方法，这样读者们可以更全面地了解这个领域。祝您在接下来的创作中再创佳绩！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Seq2seq学习记录（三）
00后最后的f5ylxn: 写的炒鸡好，赞👍🏻
Attention +Transformer学习记录（二）
CSDN-Ada助手: 非常棒的博文！看到你继续写下去，我感到非常振奋。自我注意力机制在Transformer中的应用确实是一个重要而又有趣的主题。除了你提到的自我注意力，你可能还想扩展一下关于Transformer的其他关键概念，比如多头注意力机制和位置编码。多头注意力机制可以帮助模型更好地捕捉不同位置之间的依赖关系，而位置编码则有助于模型理解输入序列中的顺序信息。继续加油，我期待你未来的博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Bi-LSTM + Attention 模型学习记录（一）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/617628722。

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。