Pytorch 1.01 Grad-CAM实现CNN可视化与原理热力图

史蒂芬方

于 2019-08-07 00:02:12 发布

阅读量1.1w

点赞数 15

分类专栏： Deeplearning CNN 文章标签： CNN GradCAM CNN可视化深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44638957/article/details/98674726

版权

Deeplearning 同时被 2 个专栏收录

12 篇文章

订阅专栏

4 篇文章

订阅专栏

Grad-CAM是一种用于理解深度学习模型决策过程的可视化技术。通过计算特定层的特征图与目标类别的权重，Grad-CAM能生成高分辨率的热力图，突出显示模型关注的输入区域。这一过程涉及权重计算、线性组合以及ReLU激活，最终生成的CAM图可放大并与原始图像叠加，提供直观的解释。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CNN卷积一直都是一个神秘的过程

过去一直被以黑盒来形容

能够窥探CNN是一件很有趣的事情，特别是还能够帮助我们在进行一些任务的时候

了解模型判别目标物的过程是不是出了什么问题

而Grad-CAM就是一个很好的可视化选择

因为能够生成高分辨率的图并叠加在原图上，让我们在研究一些模型判别错误的时候，有个更直观的了解

那么具体是如何生成Grad CAM的呢？
老规矩先上图，说明流程一定要配图

在这里插入图片描述
借用一下论文作者的图

我们能看到Input的地方就是我们要输入进网络进行判别的
假设这里输入的input 类别是 Tiger cat

一如往常的进入CNN提取特征

现在看到图中央的Rectified Conv Feature Maps 这个层就是我们要的目标层，而这个层通常会是整个网路特征提取的最后一层，为什么呢？因为通常越深层的网络越能提取到越关键的特征，这个是不变的

如果你这边可以理解了就继续往下看呗

我们能看到目标层下面有一排的 $w_1^c w_2^c....$ 等等的
这里的w就是权重，也就是我们需要的目标层512维每一维对类别Tiger cat的重要程度

这里的权重不要理解为前向传播的每个节点的权重，两者是不同的

而这些权重就是能够让模型判别为Tiger cat的最重要的依据我们要这些权重与目标层的feature map进行linear combination并提取出来

那么该怎么求出这些权重呢？

该是上公式的时候了，公式由论文提出

$L_{Grad-CAM}^c = ReLU(\sum_k\alpha^c_kA^k)$

$\alpha_k^c$ 就是我们上面说的权重

怎么求？摆出论文公式

$\alpha_k^c = \frac{1}{Z} \sum_i \sum_j$ $\frac{\partial y^c}{\partial A^k_{ij}}$

$\frac{1}{Z} \sum_i \sum_j$ 表示进行全局池化，也就是求feature map的平均值

$\frac{\partial y^c}{\partial A^k_{ij}}$ 表示最终类别对我们要的目标层求梯度

所有我们第一步先求出 $A^k$ 的梯度之后，在进行全局池化求得每一个feature map的平均梯度值就会是我们要的 $\alpha_k^c$ , 整个池化过程可以是下图红框处
在这里插入图片描述

这个 $\alpha_k^c$ 代表的就是经过全局池化求出梯度平均值 $w_1^c w_2^c....$
也就是我们前面所说的目标层的512维每一维对类别Tiger cat的重要程度

这边很好理解，就是把512层feature map分别取平均值，就取出512个均值，这512个均值就能分别表示每层的重要程度，有的值高就显得重要，有的低就不重要

好的回到 $L_{Grad-CAM}^c = ReLU(\sum_k\alpha^c_kA^k)$

现在 $\alpha_k^c$ 我们有了

$A^k$ 表示feature map A 然后深度是k，如果网络是vgg16，那么k就是512

把我们求得的 $\alpha_k^c$ 与 $A^k$ 两者进行相乘（这里做的就是线性相乘）， k如果是512，那么将512张feature map都与权重进行相乘然后加总 $\sum_k$

好，最终在经过Relu进行过滤
我们回想一下Relu的作用是什么？

是不是就是让大于0的参数原值输出，小于0的参数就直接等于0 相当于舍弃

其实Relu在这里扮演很重要的角色，因为我们真正感兴趣的就是哪些能够代表Tiger Cat这个类别的特征，而那些小于0被舍弃的就是属于其他类别的，在这里用不上，所有经过relu的参数能有更好的表达能力

于是我们就提取出来这个Tiger Cat类别的CAM图啦

那么要注意一下，这个提取出来的CAM 大小以vgg16来说是14*14像素
因为经过了很多层的卷积

我们要将这个图进行放大到与原输入的尺寸一样大在进行叠加才能展现GradCAM容易分析的优势

当然中间有很多实现的细节包含利用openCV将色彩空间转换

就如下图是我做的一个范例

那么是不是就很容易理解网络参数对于黑猩猩面部的权重被激活的比较多，白话的说就是网络是靠猩猩脸部来判别哦原来这是黑猩猩啊！

当然这样的效果是在预训练网络上(vgg16 imagenet 1000类包含黑猩猩类）才会有的，预训练好的参数早就可以轻易的判别黑猩猩了
如果只是单纯的丢到不是预训练的网络会是下面这样子

所以网络需要进行训练，随着训练，权重会越能突显这个类别的特征
最后透过某些特定的纹路就能进行判别

好了，需要代码自己玩一下的自取了

论文地址：https://arxiv.org/pdf/1610.02391v1.pdf

Pytorch代码实现：https://github.com/Stephenfang51/Grad_CAM_Pytorch-1.01

博客等级

码龄6年

21
原创

161
点赞

732
收藏

71
粉丝

关注

私信

热门文章

分类专栏

问题记录 2篇
图像处理 5篇
目标跟踪 3篇
目标检测 2篇
TensorRT 2篇
git
Caffe 1篇
CUDA 1篇
网络结构 2篇
损失函数Loss function 1篇
学习 18篇
C++ 4篇
VIM 1篇
Deeplearning 12篇
Faster - RCNN 5篇
CNN 4篇
mAP

最新评论

vim 插件 YouCompleteMe 代码补全 Linux 最新2019
达斯维达的大眼睛: 老哥，还是你这个看起来简单点，别的看起来有点复杂，用你的成功了
mmdetection 商汤开源库 FasterRCNN 训练自己的数据集 VOC2007, 結果可視化 2019
GeekHardWork: 我也没找到，你找到了吗
mmdetection 商汤开源库 FasterRCNN 训练自己的数据集 VOC2007, 結果可視化 2019
GeekHardWork: 您好，第三步调整网络参数那里主要有以下几个路径修改对的代码在项目哪里呀，没找到
用商汤的mmdetection 学习目标检测中的 Recalls, Precisions, AP, mAP 算法 Part1
爱学习的小奶狗: 不知道我的理解对不对，作者看到的话麻烦给个答复，最近没事干也在复习这些相关指标的计算方式。
用商汤的mmdetection 学习目标检测中的 Recalls, Precisions, AP, mAP 算法 Part1
爱学习的小奶狗: 作者的这句话"我们发现到[0. 0. 0. 0.05691057] 这行分数很低接近于0，因为图1的label是[1, 1, 2, 1, 1]在第三个值是label 2，所以算出来的IOU几乎为0，因为并不属于label1的"这句话是有问题吧，因为这里的[0. 0. 0. 0.05691057]是图1中检出框与gt框中类别为label1的iou，而图1中gt框中label1的框数是4个，这里的0.05691057应该是检出框det_results1_1 中的[367, 109, 468, 179]与gt_bbox1 中的[417, 159, 575, 240]的交并比，意思是该框是为了检测gt_bbox1 中的[417, 159, 575, 240]框，但检出的Iou比值较低，并不是应为label2的影响。

最新文章

目录

评论 15

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。