论文笔记：Show, Edit and Tell : A Framework for Editing Image Captions

最新推荐文章于 2024-10-04 22:36:54 发布

Joey Twan

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量787

点赞数 1

分类专栏： PAPER 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44869866/article/details/107284680

版权

PAPER 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

背景：

对现有字幕进行编辑更容易些，编辑字幕不需要关注现有信息，使它只需要专注于固定细节（例如重复的单词）就可以。

创新点：

本文提出了一种基于现有字幕迭代自适应细化的图像字幕处理方法。
我们的模型由两个子模块组成：

EditNet：具有自适应复制机制(Copy-LSTM)和选择性复制存储器注意机制(SCMA)的语言模块。一个编辑现有图像标题的框架，由一个带有选择性复制存储器注意(SCMA)机制的复制LSTM组成。
DCNet：一种基于LSTM的去噪自动编码器,它学习去噪以前的标题。我们用一个新的目标函数(隐藏状态之间的MSE)对DCNET进行优化，发现它是一种简单有效的改进方法我们解码器的性能。
这些组件使我们的模型能够直接从现有修改现有的标题。

我们的模型如何编辑现有的图像标题？

在每个解码步骤中，都会生成注意权重，这些权重对应于现有标题中每个单词的重要性。采用选择性复制记忆注意(SCMA)机制，我们选择概率最高的单词，并直接将其相应的LSTM内存状态复制到我们的语言Copy-LSTM中。也就是说，我们不是学习直接从输入标题中复制单词，而是学习是否复制与这些单词对应的隐藏状态。

EditNet及其解码器（中间）表示，现有的标题首先使用单向LSTM编码，其中每个LSTM单元输出一个单词表示（h代表隐藏状态，c代表内存状态）。隐藏状态用于计算注意力权重，然后将其与内存状态一起传递给SCMA机制。SCMA选择单个内存状态并直接将其复制到Copy-LSTM中。
文本注意向量被门控删除不正确的词，然后作为输入传递到copy-LSTM以及视觉注意向量， EditNet配备了一个基于LSTM的降噪自动编码器，将现有字幕作为输入，并将其编码为压缩后的表示形式，然后将压缩的表示形式解码为其预期的输出。

结果展示

在这里插入图片描述

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。