《Multi-Label Image Classification with Attention Mechanism and Graph Convolutional Networks》MM2019

Love向日葵的兮兮子

已于 2022-02-26 16:03:59 修改

阅读量625

点赞数 1

分类专栏： GCN应用文章标签：深度学习人工智能机器学习

于 2020-11-13 21:55:21 首次发布

本文链接：https://blog.csdn.net/weixin_43994864/article/details/109682527

版权

GCN应用专栏收录该内容

3 篇文章 0 订阅

订阅专栏

在这里插入图片描述

论文链接：https://dl.acm.org/doi/pdf/10.1145/3338533.3366589

解决的问题
作者认为单纯考虑labels之间的关系并结合图像全局信息是不准确的，应该不仅考虑labels之间的关系，同时将每个label和图像上其目标相对应区域之间的联系也考虑进来。
解决方法
本文提出一个新的框架，同时使用attention机制和GCN。Attention机制关注特定目标区域，增强图像区域和label之间的联系；利用label共现概率构建label之间的有向图，利用GCN从全局视角学习labels之间的关系，即为每个label学习一个分类器。
整体框架

Feature Extraction Net
使用ResNet-101作为特征提取网络，使I表示输入图像，对应标签为
其中C是数据集中所有标签的数目，如果图像标签是l，则其对应标签y^l = 1，否则为0。
特征提取过程记为（输出的feature map）：

Attention Mechanism Net
给定输入视觉特征（上述公式1获得）f_a，注意力模块可以生成label attention values：
其中blocks模块由ResNet的conv5.x相关的两个残差单元组成，C是整个label数目，最后Z应该包含C个attention map。
最后通过特征提取网络的输出和attention机制网络融合得到最终的特征：

其中α是权重因子。
GCN Classification Net

每层GCN非线性函数：
其中H^(l+1)表示被更新的节点表示，而H表示输入的节点表示；A是相应的相关矩阵；d是当前节点特征维度。f(., .)表示为：
其中A^~表示正则化后的相关矩阵。
本篇论文，其中相关矩阵它是通过在训练集中以条件概率建模获得的，使用词向量作为标签表示(与工作【1】一致)，将学习到的分类器应用到图像表达，scores表示为：
其中，同时f(.)指全局最大池化操作。
loss函数：
其中σ(·)是sigmoid函数。

实验结果

最新方法对比
attention模块可视化分析
整个框架实验可视化分析

结论
这篇论文与ML-GCN【1】非常相似，唯一的区别就是本文利用attention机制去关注每个label对应的特定目标区域，然后与GCN分类网络学习的label分类器结合，但是实验结果对比效果相较于ML-GCN提升不大，个人觉得创新性不是很大(纯属个人想法，有问题还请指出！!)

参考文献：
[1] Zhao-Min Chen, Xiu-Shen Wei, Peng Wang, and Yanwen Guo. 2019. Multi-LabelImage Recognition with Graph Convolutional Networks. InProceedings of theIEEE Conference on Computer Vision and Pattern Recognition. 5177–5186

Love向日葵的兮兮子

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
《Multi-Label Image Classification with Attention Mechanism and Graph Convolutional Networks》MM2019

论文链接：https://dl.acm.org/doi/pdf/10.1145/3338533.3366589解决的问题作者认为单纯考虑labels之间的关系并结合图像全局信息是不准确的，应该不仅考虑labels之间的关系，同时将每个label和图像上其目标相对应区域之间的联系也考虑进来。解决方法本文提出一个新的框架，同时使用attention机制和GCN。Attention机制关注特定目标区域，增强图像区域和label之间的联系；利用label共现概率构建label之间的有向图，利用GC.
复制链接

扫一扫