Image caption generation method based on an interaction mechanism and scene concept selection module_image caption and query generation methods-CSDN博客

本文链接：https://blog.csdn.net/weixin_44549562/article/details/122969690

作者：Liping Zhang, Qin Lu

编辑：cheney

本文设计了一种图像标题生成交互机制，实现图像信息(全局信息、目标信息)和语义信息双向选择。在此交互机制的基础上，设计了场景概念选择模块，通过交互机制生成的交互信息对提取的场景概念信息进行选择。

图像生成标题的主要任务是直接从CNN中抽取图像特征或是使用R-CNN目标检测器从图片候选区域抽取特征来表征图像信息。但是现在的方法很少利用到场景概念信息，比如同样是一辆车(视觉特征），没有利用到其所在的场景，比如校园的车，或者是公路上的车。现有的图像标题生成方法，语义信息与图像信息之间存在一致匹配问题，现有的方法仅基于低级空间特征或高级文本特征进行编码，限制了生成的图像标题的丰富性。

本文的主要贡献是
1.设计了一种两种图像信息之间的信息交互机制（IM），通过当前时刻的语义信息来选择重要的图像局部特征，利用提取的全局图像特征来选择历史语义信息。实现了两种图像信息与语义信息的交互。
2.设计场景概念选择模块，利用交互机制获得的交互信息来选择场景概念特征。将交互信息和新的场景概念信息作为ON-LSTM解码器的输入信息，指导生成更加准确、一致的场景描述，缓解了现有模型生成的图像场景描述准确率低、语言单一的问题。

整体架构
在这里插入图片描述
由上图，attention LSTM模块的输出h¹_t用于交互机制。所有时间点的语义信息集
是当前语义信息h¹_t和历史语义信息集H¹_1:T-1拼接得到的。交互机制模块的输入有四个部分：图像的目标特征和全局特征、ATT-LSTM当前时间的语义信息和所有时间点的历史语义信息。
高阶神经元ON-LSTM的输入是：交互机制产生的输出C^c_t、场景概念信息C^m_t、当前隐藏层语义信息h¹_t。
ON-LSTM的输出h²_t被全连接层Wp映射到与单词表相同的维度，通过softmax计算单词列表中每个单词的概率。然后，根据每个单词的概率获得当前时间生成的单词。具体计算公式如下在这里插入图片描述
训练
模型训练过程中，该模型使用交叉熵损失函数，并通过给出训练图像正确的人工标注句子单词序列最小化交叉熵损失函数。
实验结果

在这里插入图片描述

机制详解

IM模块 在这里插入图片描述
1.通过当前语义信息选择重要的局部图像特征。
作者使用Faster-RCNN来提取图像的局部特征。根据图像目标特征与当前时间语义信息的关联度，筛选出对当前时间更重要的局部图像特征，得到动态图像特征表示。具体计算公式如下。在这里插入图片描述
其中Vi表示局部特征。从公式中看出，根据局部特征Vi和当前语义信息Ht的交互计算，计算出一组带权重的局部特征Vi的集合C^V_t

2.根据全局图像特征调整语义信息。
作者使用ResNet101抽取全局图像信息作为图像全局特征。根据每个时间点的语义信息表示与图像全局特征之间的相关性，筛选出当前时间更重要的语义信息，得到与图像内容更一致的语义信息表示。具体计算在这里插入图片描述
门控融合装置
通过对上述交互机制的计算，得到动态图像特征向量和语义信息向量。在生成不同的单词时，需要不同比例的图像特征和语义信息。例如，在生成实体词时，我们需要更多地关注图像特征，而在生成虚词时，我们需要更多地关注语义信息。因此，设计了一个选通融合单元来衡量动态图像特征和语义信息的比例。具体来说，门控单元以动态图像特征和语义信息为输入，通过方程自动计算两种信息模式的流量。在这里插入图片描述
融合交互信息的表示向量：

场景语义选择模块SCSM
1.场景概念信息提取

首先，一个文档用于存储数据集中每个图像的多个标题语句，使用LDA对所有标题文档进行聚类，数据集中的所有标题文档被划分为N个主题类别，每个主题类别由一系列主题词表示，在这里，选择概率最高的M个单词来代表一个主题类别。分类后，字幕文档的主题类别可以视为对应图像的场景主题类别，从而获得数据集中所有图像的场景类别注释。
然后，标记的图像数据可以通过监督学习来训练深度神经网络。DNN将图像的视觉特征作为输入，并输出与图像对应的场景主题类别。
第三步是通过训练好的DNN，在没有标题陈述的情况下对图像的场景主题进行分类。
2.场景语义选择模块。
通过场景语义选择模块，输出对当前时间步长模型重要的场景概念信息S。在这里插入图片描述

其中Ti是图像的场景主题类别。

最后，将图像交互信息、所选场景概念信息和ATT LSTM隐藏状态向量输入ON-LSTM，并输出ON-LSTM层的隐藏状态向量以预测当前时间生成的单词。在这里插入图片描述
该方法将图像的场景概念信息作为先验知识添加到语言模型中，使模型能够考虑更多的图像信息，提高全局建模能力。此外，场景语义选择模块使模型能够获取重要的词汇信息，并结合图像交互信息生成更准确、更符合场景描述的标题。