image caption笔记（六）：《self_critical (scst)》

最新推荐文章于 2023-04-04 20:58:05 发布

月半rai

最新推荐文章于 2023-04-04 20:58:05 发布

阅读量1.5k

点赞数 1

分类专栏： image caption

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zlrai5895/article/details/84790699

版权

image caption 专栏收录该内容

20 篇文章 6 订阅

订阅专栏

现在image caption主要存在的问题有：

1、exposure bias：模型训练的时候用的是叫“Teacher-Forcing”的方式：输入RNN的上一时刻的单词是来自训练集的ground-truth单词。而在测试的时候依赖的是自己生成的单词，一旦生成得不好就会导致误差的积累，导致后面的单词也生成得不好。

2、模型训练的时候用的是cross entropy loss，而evaluate的时候却用的是BLEU、ROUGE、METEOR、CIDEr等metrics，存在不对应的问题。

由于生成单词的操作是不可微的，无法通过反向传播来直接优化这些metrics，因此很多工作开始使用强化学习来解决这些问题。

但强化学习在计算期望梯度时的方差会很大，通常来说是不稳定的。又有些研究通过引入一个baseline来进行bias correction。还有一些方法比如Actor-Critic，训练了一个critic网络来估算生成单词的value。

而本文的方法则没有直接去估算reward，而是使用了自己在测试时生成的句子作为baseline。sample时，那些比baseline好的句子就会获得正的权重，差的句子就会被抑制。具体做法会在后面展开。

两种模型：

FC和attin

第一种和show and tell 的公式差不多，attin和show attend and tell 的区别在于上下文变量，attin只在输入门处添加。

使用ADAM方法优化的时候，这种结构的表现优于其他结构。

原本的结构：

更改之后：

作者的核心思想是，在训练的时候，对于每个批次的预测，按照概率来取词，生成预测结果。与gt比较，计算CIDER作为score1。

同时按照greed算法取词，生成预测结果，作为baseline使用，它与gt比较计算CIDER作为score2。

reward=score1-score2 即为强化学习的奖励。有了baseline,可以避免梯度过大的问题。

将奖励加入损失函数, new_loss=-reawd*loss

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。