论文阅读-面向图像自动语句标注的注意力反馈模型

文献:吕凡,胡伏原,张艳宁,夏振平,盛胜利.面向图像自动语句标注的注意力反馈模型[J].计算机辅助设计与图形学学报,2019,31(07):1122-1129.

主要工作

在传统注意力基础上引入反馈机制:利用关注信息的图像特征指导文本生成,借助文本中的关注信息进一步修正图像中的关注区域。解决了传统注意力机制的注意分散问题。此处的反馈是指文本-图像之间的反馈。

技术

两种图像语义提取常用技术与ATTENTION结合

1.基于全图:将图像整体作为输入(如人脸识别实验就是把全图作为输入 ),寻找图像中的关注区域。
2.基于显著特征:利用一系列的属性检测来获得视觉的属性特征标签(比如,上一篇论文基于多模态词向量的语句距离计算方法 采取的就是基于均匀网格提取显著特征的方法,即通过CNN的卷积核将目标划分成多个子区域),然后将这些标签融入rnn的隐藏层中。利用目标检测方法提取文本中的图像,重点关注该对象生成的文本。但是这种方法目标提取的过程提高了运算成本。

本文的改进

在传统attention基础上引入注意力反馈机制,利用关注信息的图像特征指导文本生成。
同时,借助生成文本中的关注信息进一步修正图像中的关注区域。
这一过程,强化了图像和文本中关键信息的匹配
简单来说:

  1. 加入来自生成文本的注意力的反馈;
  2. 引入循环结构迭代的更新图像的关注区域。

本文模型

训练过程

训练数据&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值