论文笔记:Show, Edit and Tell : A Framework for Editing Image Captions

背 景:

对现有字幕进行编辑更容易些,编辑字幕不需要关注现有信息,使它只需要专注于固定细节(例 如重复的单词)就可以。

创新点:

本文提出了一种基于现有字幕迭代自适应细化的图像字幕处理方法。
我们的模型由两个子模块组成:

  1. EditNet:具有自适应复制机制(Copy-LSTM)和选择性复制存储器注意机制(SCMA)的语言模块。一个编辑 现有图像标题的框架,由一个带有选择性复制存储器注意(SCMA)机制的复制LSTM组成。

  2. DCNet:一种基于LSTM的去噪自动编码器,它学习去噪以前的标题。 我们用一个新的目标函数(隐藏状态之 间的MSE)对DCNET进行优化,发现它是一种简单有效的改进方法我们解码器的性能。
    这些组件使我们的模型能够直接从现有修改现有的标题。
    在这里插入图片描述
    我们的模型如何编辑现有的图像标题?

    在每个解码步骤中,都会生成注意权重,这些权重对应于现有标题中每个单词的重要性。采用选择性复制记忆注意(SCMA)机制,我们选择概率最高的单词,并直接将其相应的LSTM内存状态复制到我们的语言Copy-LSTM中。也就是说,我们不是学习直接从输入标题中复制单词,而是学习是否复制与这些单词对应的隐藏状态。
    在这里插入图片描述
    EditNet及其解码器(中间)表示,现有的标题首先使用单向LSTM编码,其中每个LSTM单元输出一个单词表示(h代表隐藏状态,c代表内存状态)。隐藏状态用于计算注意力权重,然后将其与内存状态一起传递给SCMA机制。SCMA选择单个内存状态并直接将其复制到Copy-LSTM中。
    文本注意向量被门控删除不正确的词,然后作为输入传递到copy-LSTM以及视觉注意向量, EditNet配备了一个基于LSTM的降噪自动编码器,将现有字幕作为输入,并将其编码为压缩后的表示形式,然后将压缩的表示形式解码为其预期的输出。

结果展示

在这里插入图片描述

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值