李宏毅机器学习20—Conditional generation by RNN ＆ Attention （第六周）

最新推荐文章于 2021-08-07 01:15:58 发布

zeng-233

最新推荐文章于 2021-08-07 01:15:58 发布

阅读量290

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57178683/article/details/117195233

版权

Conditional generation by RNN ＆ Attention摘要：这节课学的内容很多，而且讲的也比较分散，听起来有点难。主要围绕的是文字的生成，其中包括在一定条件下的文字生产，一共有两个例子，一是对图片生成文字描述，一个是对提问做出正确的回答。从另一个角度来讲，文字生成还可以分成静态生产与动态生成（attention），所谓的动态生成，指的是在decoder中，每个时间点的输入是不同的，这样的好处是可以是每一次的输出结果更加准确。还讲了memory network，

摘要由CSDN通过智能技术生成

Conditional generation by RNN ＆ Attention

摘要：

这节课学的内容很多，而且讲的也比较分散，听起来有点难。

主要围绕的是文字的生成，其中包括在一定条件下的文字生产，一共有两个例子，一是对图片生成文字描述，一个是对提问做出正确的回答。

从另一个角度来讲，文字生成还可以分成静态生产与动态生成（attention），所谓的动态生成，指的是在decoder中，每个时间点的输入是不同的，这样的好处是可以是每一次的输出结果更加准确。

还讲了memory network，以根据文章提问题为例，在简单版本中，可以找到文章中与提问相关的内容，做出正确的回答，在复杂版本中，是在简单版本的基础上，再次阅读问题，循环多次以便达到更好的效果。

最后讲了生成中的几种情况：

1讲的是在视频生成标题中，要注意每个图片的attention weight要尽可能接近，避免输出word时过于关注某一张图片。

2讲了generation和训练时，每个时间点考虑的输入时不一样的，分别来自于model 和reference。这种情况叫做exposure bias。最好的解决办法是先参考reference，后参考model。

3讲的是beam search，一种选取最高分数路径的方法

4讲了object level和component level的对比。只从word角度来评判生成句子的正确性是不够的，还要总体来看，考虑语法上可能出现的问题。

目录

一、什么是生成（generation）？

二、condition generation

1.如何实现image caption generation

2.如何实现chat-bot：以机器翻译为例

3.一种情形：

三、attention：动态的条件生成网络

做法：以机器翻译为例

四、image caption generation 图像标题生成

五、memory network 记忆网络

举例：根据文章提问，看机器能否给出正确的回答。

Memory network的复杂版本

六、Tips for generation 生成句子的一些技巧

1.attention的一种情况

2.mismatch between train and test

4.object level和component level的对比

一、什么是生成（generation）？

就是模型通过学习一些数据，然后生成类似的数据。让机器看一些动物图片，然后自己来产生动物的图片，这就是生成。

Generation：生成一个由一个个元件组成的结构体

举例1：通过rnn依次生成一个句子。（句子由词和字组成）

<bos>表示句子开始：begin of sentence

将bos这个特殊的character输入到rnn中，会得到一个character的分布，最后对应“床”这个字。之后将床作为第二个rnn的输出，重复上面的操作，这样就得到了一首诗。

举例2：通过rnn生成一个图片。（图片由像素组成）

和句子的原理相同，把每个像素看作句子里的一个character。因此，例子中的图片就可以看做有九个word的句子。

只是将图片看成和句子一样的结构不是很恰当，像素之间的位置是会相互影响的，但是句子结构没法做到这一点。

右上角是将图片单纯考虑成句子结构

右下角考虑了图片每个像素之间位置的相互影响。

通过3d的lstm可以实现这个结构。

二、condition generation

我们不希望只是简单的随机生成句子，生成的句子应该是针对于特定环境的。

比如给机器一张图片，它可以生成对图片的描述。

和机器交流时，能生成适当的的回复。

1.如何实现image caption generation

先将图片输入到cnn中得到一个vector，在每次RNN输出之前，将这个vector输入给rnn。这样图片就会影响rnn的输出结果。（为了防止rnn有可能遗忘掉图片）

2.如何实现chat-bot：以机器翻译为例

想法：先将输入转化为一个vector，之后就和上面的方法一样了。

做法：将机器学习四个字输入到一个rnn中，取最后的中间层的输出（认为这个vector包含之前四个字的所有信息），再将得到的这个vector输入给另一个rnn，重复上面的操作。最终得到输出machine learning。

这两个RNN可以是一样的，也可以是不一样的。这个方法就是sequence-to-sequence learning

3.一种情形：

M代表机器说的话，在这里机器再次用hi来打招呼并不合适。这就要机器会考虑到谈话阶段上下文语境。

让机器考虑上下文语境的一种解法：

运用双层的encode，先将之前说过的话，全部都通过rnn变成一个vector，再将这些vector都读一遍，最后将读过的结果丢给decode。这就意味着考虑了之前说过的话。

三、attention：动态的条件生成网络

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
李宏毅机器学习20—Conditional generation by RNN ＆ Attention （第六周）

Conditional generation by RNN ＆ Attention摘要：这节课学的内容很多，而且讲的也比较分散，听起来有点难。主要围绕的是文字的生成，其中包括在一定条件下的文字生产，一共有两个例子，一是对图片生成文字描述，一个是对提问做出正确的回答。从另一个角度来讲，文字生成还可以分成静态生产与动态生成（attention），所谓的动态生成，指的是在decoder中，每个时间点的输入是不同的，这样的好处是可以是每一次的输出结果更加准确。还讲了memory network，
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。