关于序列识别网络(SRN)知识的学习

引入

我们发现基于RNN的方法存在一些明显的缺点,如时间依赖的解码方式和语义上下文的单向串行传输,这极大地限制了语义信息的帮助和计算效率。为了减轻这些限制,我们提出了一种新颖的端到端可训练框架,该框架称为语义推理网络(SRN)

什么是空间规整( spatial regularization)?

为什么要做空间规整? 因为标签之间没有标注空间信息,难以得到标签之间潜在的空间关系。

如何做空间规整?在Learning Spatial Regularization with Image-level
Supervisionsfor Multi-label Image
Classification一文中,作者提出了学习所有标签之间的注意力图(attention
maps),挖掘标签之间的潜在关系,结合正则化的分类结果和ResNet101网络的分类结果,提高了图像分了的表现。rocks置信度从0.405提高到了0.526,
sun从0.339提高到了0.519. 其他类别也有相应的提高。

在这里插入图片描述

空间规整网络(spatial regulation network,
SRN)的主网络是ResNet-101,得到基本的视觉分类特征并作为SRN的输入。SRN利用注意力机制,当图像中存在某个标签的时候,更多的注意力应该放在相关的区域,从而标签的注意力图(在原图的相应位置)编码了标签对应的空间信息,结合住网络和SRN分类结果得到最终的分类置信度。

SRN的编码器采用卷积递归结构,是基于attention模型的一个新变体。

工作方法

SRN是一个端到端的可训练框架,由四个部分组成:主干网络、并行视觉注意模块(PVAM)、全局语义推理模块(GSRM)和视觉语义融合解码器(VSFD)。
给定输入图像,首先使用主干网络提取2D特征V。
然后,PVAM用于生成N个对齐的一维特征G,其中每个特征对应于文本中的一个字符并捕获对齐的视觉信息。
然后将这N个一维特征G送入我们的GSRM中,以捕获语义信息S。最后,VSFD将对齐的视觉特征G和语义信息S融合在一起,以预测N个字符。
对于小于N的文本字符串,将填充“ EOS”。 SRN的详细结构如图
在这里插入图片描述

主干网络

我们使用FPN汇总ResNet50的第3阶段、第4阶段和第5阶段的层次结构特征图作为主干网络。 因此,ResNet50 + FPN的特征图大小是输入图像的1/8,通道数是512。受非本地机制的启发,我们还采用了由位置编码组成的转换器单元、多头注意力网络和前馈模块,可有效捕获全局空间依赖性。
将2D特征图馈送到两个堆叠的变换器单元中,其中多头注意力的头数为8,前馈输出维数为512。此后,提取最终的增强2D视觉特征,表示为V,vij
∈ [公式] ,其中d = 512。

全局语义推理模块

在本节中,我们提出了遵循多路并行传输思想的全局语义推理模块(GSRM),以克服单向语义上下文传递的缺点。
首先,我们回顾了在Bahdanau注意机制(一种典型的RNN式结构)中最大化的概率公式。 可以表示为以下形式


在这里插入图片描述

单词嵌入
在每个时间步骤中,类似于RNN的方法都可以在训练或推理过程中引用先前的标签或预测结果。 因此它们以顺序方式工作,因为先前的信息
和只能在时间步t处捕获,这限制了语义推理的能力,并在推理过程中导致低效率。

为了克服上述问题,我们的主要想法是,我们使用与时间无关的近似嵌入 [公式] 而不是使用实词嵌入e。 这项改进可以带来很多好处。
1)首先,可以从等式中删除最后步骤Ht-1的隐藏状态值。 这样,由于消除了所有与时间有关项,因此串行前传过程将以高效率升级为并行。
2)其次,允许将包括所有前一个字符和后一个字符的全局语义信息组合在一起并推理当前时间的适当语义内容。 因此,概率表达式可以升级为:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
GMRS模型结构图-↑

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值