论文阅读:cvpr2020 行人重识别 Relation-Aware Global Attention

Relation-Aware Global Attention for Person Re-identification阅读笔记

作者:Zhizheng Zhang, Cuiling Lan,Wenjun Zeng,Xin Jin,Zhibo Chen
来源:CVPR 2020
文章链接:https://arxiv.org/pdf/1904.02998v1.pdf
代码链接:https://github.com/microsoft/Relation-Aware-Global-Attention-Networks
动机:在行人重识别研究中,注意力机制可以强化区分特征,抑制无关特征。
以前的方法通常使用局部卷积来学习注意力,忽略了从全局结构模式中挖掘知识。作者为了使网络更好的进行attention学习,提出了Relation-Aware Global Attention (RGA) module。
解决方法:
1、作者通过设计attention,让网络提取更具有区别度的特征信息。简单来说,就是给行人不同部位的特征加上一个权重,从而达到对区分特征的增强,无关特征的抑制。
2、作者在这篇论文中提出了一个Relation-Aware Global Attention (RGA) 模型挖掘全局结构相关信息,使得attention集中在有区分度的人体部位,并且考虑到每个特征节点和全局特征之间的关系。用来模拟人的视觉系统,对不同的特征付出不同的注意力。
3、对于每一个代表空间位置的特征向量节点,取所有节点之间的成对关系,加上当前节点来表征全局结构信息。对于一个特征集合V = {xi ∈ R d , i = 1, · · · , N},有N个相关特征,通过学习一个表示的mask矩阵,用a=(a1, · · · , aN )表示,用来衡量每个特征的重要程度,通过attention更新的特征为zi = ai*xi,主要任务就是学习ai的值。
方法亮点:
如下图所示,在作者之前的attention学习中,有两种普遍的学习方法,分别为下图中的a和b。a1, · · · , a5 对应于五个特征向量 x1, · · · , x5的attention值。
a) 使用卷积神经网络,对每一个特征x,学习一个attention值,因此只能学习到局部特征,而忽视了全局特征。
b) 使用全连接网络,学习到的attention值来自于所有特征向量的连接,虽然学习到了全局特征,但参数量过大,计算量太大。
c) 通过考虑全局的相关信息学习attention值,即对每一个特征向量,全局的关联信息用一个关系对ri = [ri,1, · · · , ri,5, r1,i, · · · , r5,i]表示,其中ri,1表示第i个特征节点和第一个特征节点的关系,以此类推。用一个符号ri&j = [ri,j , rj,i]表示,所有的ri&j组合可以得到x1一个关联特征,组合在一起得到下图中的特征向量r1,再和原始特征向量x1拼接,得到一个relation-aware feature y1, y1 = [x1, r1 ],作为提取attention的特征向量。因此可以看出,基于特征x1得到的attention值a1既包含了局部特征x1,又包含了全局所有特征之间的关系。

参考:
https://blog.csdn.net/baidu_41622980/article/details/107849683

模型介绍及代码实现:
可以看下面这链接:给出了模型的代码重点介绍,
https://blog.csdn.net/sol_data12/article/details/113622644

https://www.pythonheidong.com/blog/article/564949/4c71b25d25714d9841f3/
原始的resnet50 代码介绍 这里面代码步骤比较详细一点

论文翻译:https://blog.csdn.net/qq_34124009/article/details/108483667
这篇翻译的有点水 凑合看看
加一些自己的总结:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

https://download.csdn.net/download/zqx951102/33676300
全部的ppt我上传在这了 感兴趣的可以下载。

相互关联的博客:
https://blog.csdn.net/baidu_41617231/article/details/107271242?utm_medium=distribute.pc_relevant.none-task-blog-2defaultCTRLISTdefault-2.no_search_link&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2defaultCTRLISTdefault-2.no_search_link
介绍三篇2020年 论文的主要思想:
Relation-Aware Global Attention for Person Re-identification(CVPR2020)
Multi-Granularity Reference-Aided Attentive Feature Aggregation for Video-based Person Re-identification(CVPR2020)
Relation Network for Person Re-identification(AAAI2020)

### 行人识别中的空间注意力机制 #### 空间注意力机制概述 空间注意力机制专注于图像中不同位置的重要性,通过动态调整各个像素点的关注程度来提升模型的表现。对于行人重识别任务而言,这类机制有助于捕捉人体的关键部位以及背景信息的影响。 #### 实现方案 一种常见的做法是在基础网络结构之上加入额外的空间注意力模块。该模块通常由两个主要组件构成:特征图生成器与权重计算器。前者负责提取输入图片的多尺度特征表示;后者则基于这些特征计算出各位置应分配多少关注度。具体来说: - **特征图生成器** 可采用标准卷积层或多分支并行处理方式获取具有不同感受野大小的感受区域描述子; - **权重计算器** 则利用池化操作(如最大/平均池化)、全连接层或轻量化可分离卷积等手段得到最终的空间分布概率向量[^1]。 ```python import torch.nn as nn class SpatialAttention(nn.Module): def __init__(self, kernel_size=7): super(SpatialAttention, self).__init__() assert kernel_size in (3, 7), 'kernel size must be 3 or 7' padding = 3 if kernel_size == 7 else 1 self.conv1 = nn.Conv2d(2, 1, kernel_size, padding=padding, bias=False) self.sigmoid = nn.Sigmoid() def forward(self, x): avg_out = torch.mean(x, dim=1, keepdim=True) max_out, _ = torch.max(x, dim=1, keepdim=True) scale = torch.cat([avg_out, max_out], dim=1) spatial_attention_weight = self.conv1(scale) out = self.sigmoid(spatial_attention_weight) * x return out ``` 此代码片段定义了一个简单的空间注意力模块 `SpatialAttention` ,其接收任意形状的张量作为输入,并返回经过加权后的输出张量。这里采用了均值和极大值两种统计特性组合的方式来进行初步的信息聚合,再经由一个小型卷积核完成最后的概率映射过程[^3]。 #### 研究论文 针对行人重识别领域内的研究,《Relation-Aware Global Attention for Person Re-identification》 提出了关系感知全局注意(RGA) 模型,在传统局部卷积基础上加入了跨个体间的关联分析功能,从而实现了更精准的身份匹配效果[^2]。尽管这篇文献侧重于整体框架设计而非单纯的空间维度优化,但从其中仍能汲取不少关于如何更好地融入上下文线索方面的灵感启发。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

zqx951102

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值