Image Cption:Curiosity-driven Reinforcement Learning for Diverse Visual Paragraph Generation

三个挑战:模式崩溃、延迟反馈、策略网络热身损耗时间长
这篇paper:
首先通过将段落标题作为一个长期的决策过程进行建模,并将状态转换的预测不确定性作为内在奖励进行测量,该模型被激励去记忆准确但很少被发现的描述单词,而不是那些频繁使用的通用模式。这样使得我们最后生成的段落内容生动有趣;
其次,由于评价的外部奖励只能在完整段落生成后有效,我们通过考虑连续动作的相关性,用视察学习法估计每一步的期望值。然后,由“好奇”模块产生的内在奖励补充外在奖励,以鼓励模型充分探索未接触的新单词,以达到全局最优效果;
第三,折现模仿学习从人类的演示中学习,而不是提前进行耗时的热身。


图一展示的模式崩溃的问题,橙色代表所提出CRL生成的更为具体的说明

现在主流的段落字幕模型遵循编码解码结构,其中解码器受到充分的监督,以最大限度地提高预测词的后验概率。单词级的交叉熵目标是鼓励使用与ground-truth相同的n-gram,以至于段落缺乏完整性和一致性。为了实现更加多样化和自然的描述,将监督学习与生成对抗模型或自动编码器结合,旨在通过低维高斯流形捕捉字幕固有的模糊性,并以层次化的方式模拟段落结构。然而受到模式崩溃和曝光误差的影响,现有的段落字幕方法还不能达到最佳效果。首先,简单的高斯假设不足以完全代表ground-truth,很多模式表示不足或缺失。比如,图1中只能采用一般词汇而不能用特定名词。其次,解码器在测试和训练中根据不同的输入进行预测,即测试时采用groun-truth,而测试只能预测,这便是曝光误差。
最近,有一系列工作通过强化学习解决曝光偏差问题,利用非微分评价反馈,特别是句子级。该策略将图像字幕重新表述为连续的决策过程,直接对基于先前决策进行优化。通过优化BLEU、CIDEr等句子级评价指标,而不是交叉熵损失,可以更合理的生成长句。
不过,将此扩展到段落字幕是有挑战的:(1)模式崩溃,优化评价指标不能缓解固定模式的问题,很容易使用重复的频繁短语和通用模板,从而产生表述单一性;(2)延迟反馈,策略只有在产生整个序列时才能收到反馈,导致训练方差高,尤其对于段落等长序列数据;(3)预热时间长,当前强化学习学习样本效率低,反复实验的时间和计算成本太高,需要长期的热身时间。
针对以上问题,本文提出了***基于好奇心驱动的强化学习–CRL***。首先,设计了一个内在奖励功能(好奇模块),鼓励策略探索不确定的行为和访问不熟悉的状态,从而增加表达的多样性。好奇模块有两个具有自我监督功能的子网络组成,即动作预测网络(AP-net)和状态预测网络(SP-Net)。其中,SP-net将每个时间步长的状态预测偏差作为内在奖励,实现对外在奖励的补充。不同于传统强化学习简单地对每个状态的外部奖励取平均,我们考虑到连续动作的相关性,完成外部奖励所造成的时间差。最后为避免网络长时间的学习样本,本篇无缝集成了模仿学习,使得学习稳定且收敛速度快,并在不收缩动作空间的情况下逐步减弱监控信号。

基于强化学习的句子级字幕
一般分为基于策略和基于角色-评判家。基于策略,利用无偏强化算法,通过在训练过程中从模型中采样一个完整的序列来优化期望奖励梯度。为了抑制蒙特卡洛抽样的高方差,自临界序列训练(SCST)从回归中减去基线来减少梯度估计的方差。基于行为批判,不是采样结束后获得单个奖励,而是同时学习策略和用于引导的状态值函数,在后续的估计中更新状态,以减少方差并加速学习。CRL算法从内部环境对批评者进行学习,从agent角度对外部奖励进行补充。
基于强化学习下的段落字幕
现在的解决方案包括:(1)用检测到的区域建议单独生成句子或者通过狄利克雷(TOMS)生成主题学习;(2)采用对抗学习保持语义内容和语言顺序的层次结构。

在这里插入图片描述
图2为段落字幕框架概述。

我们采用双层的LSTM结构加上注意机制的网络,如图2.第一个LSTM层为一个自顶向下的视觉注意模型,输入词为y t-1,并与全局特征V和之前的z维的s (lang)t-1结合,完成LSTM状态转换,如
其中We,Wv是学习参数,wt时当前时间步t的one-hot向量。
为了基于语言策略更深的扩展局部视觉特征v,加权视觉特征vt由式(2)得出:
其中,Wv,Wh和Wa都是需要学习的参数,在得到加权视觉特征和隐状态s(vis)t 后,预测词yt的概率值。便由公式(3)得出:
其中,Wp是学习参数。为了鼓励模型学习到少见的词语,我们把s(vis)t和s (lang)t 结合为st,并用到策略学习和折现模仿学习中。
为完成整个段落,由公式(4)给出:

策略学习(Policy Learning)
在强化学习中,网络利用从与环境互动中获得的经验来学习最大化奖励信号的行为。一般来说,RL损失可以表示为:
其中Aπθ (s,y) = Qπθ (s,y) + V πθ (s)是优势函数。Qπθ (s,y)表示状态-作用函数估计长期价值,而不是瞬时回报,V πθ (s)是状态值函数,作为内部的评论家。其核心思想是激励政策,以增加正确而罕见的单词发生的可能性。s = {s1,s2,…,sT}表示策略网络的级联隐藏状态。基于策略梯度,可得给予奖励的不可微损失函数的梯度为:

Self-supervised State Prediction(SP-Net)自监督状态预测
估计优势函数之前,我们首先细节两个子网状态值函数V πθ (s)。SP-net是基于输入yt和 ϕ(st)来预测未来嵌入状态 ϕ(st+1),其中 ϕ()函数表示状态嵌入并过滤无关的记忆预测下一个状态。均方误差作为SP-net的目标函数:
其中G(·; θS P )表示SP-net参数化的非线性变换θS P .这样,状态价值函数可以表示为:
其中ρ是超参数。预测误差量化了主体对环境的不确定性。训练最大化状态预测错误的策略网络将探索经验较少和高度混乱的过渡,因此可以很好地捕捉到稀少的参与区域和不常见的表达。

Self-supervised Action Prediction(AP-Net)自监督行为预测
给定转移元组(st,st+1,yt),基于状态转移预测动作预测网络目标。Ap-net 的目标可以定义为:
其中 yt 是对当前动作的预测,在所有可能的单词中显示为最大分布。Q(yt)是作用函数的实分布,f()表示 ap 参数化的 AP-Net 的非线性变换。网络是学习与人类写作行为的有意义模式相对应的状态嵌入,抑制异常值的影响。


图3 好奇模块,蓝线和绿线为LSp和LAp的损耗计算,橙色先表示内在奖励计算。

奖励塑造(Reward Sharping)
为了鼓励网络探索获取新知识的环境,生成准确多样的段落整体鼓励由内在奖励和外在奖励组成,期望策略网络使得两个奖励加权和最大化。
外在奖励:为了提高段落字幕的保真度和解释力,外部奖励 r et 被提炼为语言测量的线性组合。具体来说,我们选择最具有代表性和常用指标,即BLEU和CIDEr,
本文实验中,超参数a和b经验性的分别设置为1和2。在这样的奖励设置下,采用时差学习TD估计每个时间步的动作状态函数Qπθ(st,yt)。
其中,Gt:t+j 定义为 j 步期望收益之和。λ表示权衡当前参数估计和之后的参数估计。折现因子 γ 使方差减少降低外部奖励,为简单起见,λ设为1。整体Q函数可以为:
内在奖励:正如上面所讨论的,我们训练状态预测网络和计算预测误差作为内在奖励ri = Vπθ(s)(见方程(8))。因此,策略网络的梯度可以改写为:

折现模仿学习
强化学习要具有良好的收敛性能,一个主要的挑战就是开始阶段要有一个良好的策略。样本效率低的问题导致了大量的时间和试错的计算代价。现有带有强化学习的句子级字幕方法,采用交叉熵损失作为解码器的热身:
y∗= {y∗1,y∗2……y T}是人为标记的ground-truth。尽管监督学习对于策略网络的初始化至关重要,但它通常会消耗很长一段时间(例如,斯坦福数据集上的40个epoch),并且高度限制搜索空间,这可能会导致局部最小。因此,我们引入了折现模仿学习,在第一个时间步训练然后逐渐减少损失系数η削弱监督。

协同优化
好奇模块与折现模仿学习,总体的学习损失函数可以表示为:
其中 α and β是恒定的损失系数, η 是一个动态的标度因子,每一个时间步减少百分之十(以此达到折现模仿学习过程)。值得注意的是,我们通过动态估计agent行为的内在奖励来形成奖励信号,从而避免了在优势函数中额外的基线计算。整体算法如算法1所示。

实验

基本设置
数据集:所有最先进的方法和我们提出的方法是在斯坦福图像段落数据集上进行评估的,其中 14,579 个图像段落对来自视觉基因组和 MSCOCO 数据集用于训练,2,490 个用于验证,2,492 个用于测试。它的词汇量是 12,186 个。所有图片平均用67.5 个单词的人工标记段落进行注释。
评估指标:所有模块在六个广泛使用的自动评估指标上的性能,即 BLEU-{1,2,3,4},METEOR和 CIDEr。Bleu-n被定义为 n-gram 精度分数的几何平均值,CIDEr 用[CIDEr measures n-gram accuracy by term-frequency inverse-document-frequency] (TF-IDF)来度量 n-gram 精度。Meteor 定义为精度和平均数和回忆段落之间的精确匹配、词干匹配、同义词匹配和意译匹配。
基线
与几种最先进的段落字幕方法和一种基于强化学习的方法进行了比较。
句子简洁: 在 MSCOCO 数据集上预先训练两个句子级别的字幕模型(Neu-raltalk 和 NIC[44]),为每个给定的图像预测五个句子,并进一步连接成一个段落。
图像扁平化: 不同于句子组,图像扁平化方法直接逐字生成一个段落用于视觉编码的ResNet-152网络和用于解码语言的单个LSTM层。damatt将注意机制与编码器解码器体系结构耦合起来,并额外引入深度信息来增强对空间对象对象关系的识别。TOMS使用潜在狄利克雷分配(LDA)学习多个句子之间的话题转换。
层次结构: 区域层次结构利用层次递归网络学习句子主题转换,逐句解码语言句子。Rtt-GAN 在 GAN环境下实现深度学习,生成器模仿带有人类注释的段落,并试图愚弄检举人员。Van利用变量自动编码器对段落分布进行建模,保持了段落的连贯性和全局性。值得注意的是,Liang 等人利用了密集字幕模型预测的本地短语,该模型还使用了 MS-COCO 数据集中的训练数据。
为了公平比较,我们将该框架与基于强化学习的图像字幕方法 SCST 进行了比较。该模型具有相同的编解码器结构,但是使用了不同的强化学习策略和奖励功能。由于需要对策略网络进行监督预热,我们使用 ADAM 优化器对 SCST 进行了交叉熵(XE)目标预训练,学习率为 510-4。
实施细节
源代码基于 PyTorch,所有实验都是在一个拥有两个GeForceGTX1080Tigpu 的服务器上进行的。
数据预处理:对于文本预处理,首先标记所有带注释的段落,并将出现次数少于五次的单词替换为用于词汇库的未知 unk 标记。对于 ResNet 特征提取,我们使用 ResNet-101对每幅图像进行 2048-D 矢量编码,然后使用更快的 R-CNN对区域特征选择前50 个显著区域。
模块架构:将 ap 网络的输入状态 st∈r2512 映射为状态嵌入(st)∈R512连接层和一个 leakireu层。该网络以(st)和(512-D)嵌入的 yt 为输入,然后将其传递到两个完全连接的层序列中,该层序列有 512 个单元和12,186 个单元。
参数设置:隐藏大小,所有嵌入大小的图像和文字是固定的512。非注意力模型的批量大小为32,而注意力模型的批量大小为16。学习率µ开始时为 6
10-4,然后每三个时间步衰减 0.8。折现模仿学习的折扣系数 δ设置为 0.9。超参数ρ和折现系数 γ分别设置为 1 和0.9。损失系数α and β固定在0.2和0.8。对于比较模型,主题向量的嵌入大小设置为 100。

Comparisons with State-of-The-Art
*定量分析:*在本节中,我们使用 Standford 图像段落数据集上的标准度量对各种段落字幕方法进行定量评估。在这里,我们报告了每个模型的最佳性能,以及语言模型和推理阶段的搜索方法的说明。贪婪表示贪婪搜索(等于 1 波束搜索),n 波束表示带有 n 个最可能子序列的波束搜索。一般来说,使用更多的波束进行推理将导致更好的性能,但更高的时间代价。
从表 1 可以看出,我们的 CRL 在大多数情况下优于所有比较的基于段落和基于句子的图像字幕方法,特别是改进了 38.4%(从 22.74%到31.47%)。通过使用单层语言解码器,我们在层次化方法上取得了显著的性能提升。由于我们选择度量来优化段落级质量(如,CIDEr),所提出的CRL 在带有同步替换的单度量(例如 METEOR)上获得相对较低的性能。关于比较方法的观察,非层次方法(例如 Image-Flat、DAM-Att和TOMS)比简单连接句子级别的输出(例NeuraltalkNIC)表现得更好,但它们不能捕捉整体结构和段落的主题跨越,因此获得的性能比较低(例Region-Hierarchical 方法、RTT-GAN和 VAE)。不同于简单地将 LSTM 底部的句子连接起来的“区域-层 次”,“RTT-GAN”和“VAE”保持了句子之间更好的一致性。与层次模型相比,基于逻辑语言的单层语言解码器 SCST 方法实现了竞争结果,证明了策略优化的有效性。正如文献[21]中报道的那样,人类通过收集 500 张随机选择的图像的附加参数图来显示结果。我们可以看到,自动合成字幕和自然语言之间的差距很大,而我们提出的 CRL 二波束搜索缓解了这一差距,并取得了竞争的结果。此外,实验结果验证了CIDEr度量比任何其他评价指标更符合人类的判断。

*定性分析:*为了直观地了解所提出的 CRL 训练方法的性能,我们在图中展示了一些贪婪地搜索随机选择图像的输出,即由标准段落字幕方法生成的段落,所提出的 CRL 方法和基于 rl 的方法“SCST”。我们提出的 CRL 模型通过与同行比较,以一种连贯的顺序生成段落:第一句(红色)倾向于覆盖全局主题或主要行动的视觉内容,其次是几个句子(蓝色),以描述场景的细节。一般来说,最后一句描述的是背景中的物体或环境,完全符合人类的写作风格。毫无疑问,我们的合成段落抓住了更微妙和准确的词汇和关系,比如“平台”和“站在男人身后”。相比之下,“区域层次”和“SCST”几乎不能保证生成的段落的完整性和丰富性。

Ablation Study
在这一部分,我们分别研究了 RL 、策略网络结构和视觉特征的影响。主要的实验结果如表 2 所示,评价指标和平均回报的详细曲线如图 4 所示。

*RL的训练策略:*通过比较表 2 中显示的不同方法中使用的每个策略的性能,我们可以观察到纯监督式学习(CRLw/oRL)在聚合度量如 CIDEr 和多元度量如 BLEU-{3,4}上大幅下降。在去除内在奖励的同时,本质上遵循学习策略,缺乏必要的探索,从而导致次优绩效。此外,在图 4 中,我们显示了 BLEU-{3,4},每个训练步骤和基于“向上-向下”解码器和“区域特征”验证集的平均奖励曲线。从图 4,我们可以观察到,“CRL w/o intrinsic”(如蓝线所示)相比于“CRLw/oRL”(如绿线所示)需要进行长时间的热身,并在 40 时间步后急剧提高了评价得分的评价指标,然后逐渐收敛。而我们的策略 CRL(如橙线所示)在训练过程中得到了平稳的增长,因为它受益于折扣模仿学习和策略梯度训练相结合的能力。与“CRL w/o intrinsic”方法不同,本文的 CRL 方法避免了繁琐、耗时的初始化,得到了充分的探索和更好的策略网络。就平均奖赏曲线而言,“内在奖赏”获得的外在奖赏在训练前快速攀升,然而我们的奖赏信号先下坡,然后慢慢上坡。这种现象可能是由内在奖励引起的,当 agent 学会控制状态转换和语言模式时,内在奖励开始减少。关于图 4 所示的方差,我们推断方差主要是通过迭代行为优化引入的,其中平均奖励相应波动。通过梯度裁剪或调整学习率可以减小方差。随着外在奖励的逐渐累积,整体奖励慢慢增加,直到模型收敛。此外,可以清楚地看到,与“CRLw/ointrinsic”和“CRLw/oRL”相比,“CRL”达到了更快的收敛速度(大约 25 个时间步)。
*Policy Network Architecture:*对于主干语言解码器,我们将策略网络从FC(vanillaLSTM)切换到 Att(attention-basedLSTM),再切换到 Up-Down(attention-basedLSTM+languageLSTM)进行比较。通过比较不同训练策略下的每种方法,可以清楚地看到,“向上-向下”模型在所有指标中获得了更高的性能,因为它动态地关注图像的局部区域并捕获更多的视觉细节。特别是,“上-下”模型训练与提出的好奇心驱动的 RL 平均增了:CIDEr评分16.36%和97.97.89% ,Bleu-4 评分14.59%和98.23%,分别相比较于 ‘CRL w/o instrinsic’和CRL w/o RL’。
*视觉特征:*除了考虑视觉特征影响的评估,我们还列出了基于 ResNet 特征和区域特征的性能(详见第 4.3.1 节)。从表 2 可以看出,“再现特征”对字幕模型有积极的贡献,丰富了视觉识别和表征。与其他语言网络相比,“上下”结构对视觉特征的选择更为敏感。

Diversity Analysis
为了定量揭示生成段落的语言特性,我们从斯坦福图像段落数据集的测试集中随机选择 500 幅图像,并显示图 6 中具有代表性的方法传播所生成的段落的统计数据。我们使用 JavaScript 中的 d3-force 包可视化语言分布的语义图。在每个语义图中,每个节点都表示词汇表中的一个惟一标记,并使用不同的颜色显示相关的词性标注。例如,蓝色表示单数形式的 Noun(NN),红色表示 Determiner(DT),橙色表示Verb、Gerund 或 PresentPar-ticiples(VGB)。两个节点之间的边表示两个词之间的邻近关系。值得注意的是,语义图的大量存在以一种直观的方式暗示了生成的对图的多样性和丰富性。由人类注释的Ground-truth 图(见图 6©)包含了最全面的关系和广泛的对象实体。即使有在合成段落和真正的自然语言之间仍然存在差距,由 CRL 生成的段落(见图 6(b))与基于 rl 的方法 SCST 生成的段落相比,词汇表要宽得多(见图 6(a))。

结论
在这项工作中,我们提出了一个内在驱动的强化学习/视觉段落生成模型。为了将不同的句子概括为连贯的句子,本文提出的 CRL 挖掘了长篇叙事背后的人类写作模式,并通过模拟主体对环境的不确定性,很好地捕捉到了精确的表达。我们的工作区别于传统的基于政策和基于行为者批评的强化学习方法,它缓解了稀少的回报和低探索问题,从而鼓励代理人充分探索稀有状态,获得更好的政策。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值