论文阅读-面向图像自动语句标注的注意力反馈模型

最新推荐文章于 2024-06-28 00:40:27 发布

yang_live

最新推荐文章于 2024-06-28 00:40:27 发布

阅读量203

点赞数

分类专栏：深度学习 nlp cv

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yang_live/article/details/104485629

版权

文献：吕凡,胡伏原,张艳宁,夏振平,盛胜利.面向图像自动语句标注的注意力反馈模型[J].计算机辅助设计与图形学学报,2019,31(07):1122-1129.

主要工作

在传统注意力基础上引入反馈机制：利用关注信息的图像特征指导文本生成，借助文本中的关注信息进一步修正图像中的关注区域。解决了传统注意力机制的注意分散问题。此处的反馈是指文本-图像之间的反馈。

技术

两种图像语义提取常用技术与ATTENTION结合

1.基于全图：将图像整体作为输入(如人脸识别实验就是把全图作为输入 )，寻找图像中的关注区域。
2.基于显著特征：利用一系列的属性检测来获得视觉的属性特征标签(比如，上一篇论文基于多模态词向量的语句距离计算方法 采取的就是基于均匀网格提取显著特征的方法，即通过CNN的卷积核将目标划分成多个子区域)，然后将这些标签融入rnn的隐藏层中。利用目标检测方法提取文本中的图像，重点关注该对象生成的文本。但是这种方法目标提取的过程提高了运算成本。

本文的改进

在传统attention基础上引入注意力反馈机制，利用关注信息的图像特征指导文本生成。
同时，借助生成文本中的关注信息进一步修正图像中的关注区域。
这一过程，强化了图像和文本中关键信息的匹配。
简单来说：

加入来自生成文本的注意力的反馈；
引入循环结构迭代的更新图像的关注区域。

本文模型

训练过程

训练数据&#

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。