【caffe】基本数据结构blob说明，用faster-rcnn 之 RPN网络的结构解析进行说明

最新推荐文章于 2024-09-16 10:45:33 发布

ytusdc

最新推荐文章于 2024-09-16 10:45:33 发布

阅读量884

点赞数

分类专栏： AI之路 - Face 文章标签： blob数据结构 RPN网络结构

本文链接：https://blog.csdn.net/ytusdc/article/details/79528987

版权

AI之路 - Face 专栏收录该内容

71 篇文章 41 订阅

订阅专栏

【caffe】基本数据结构blob 参考：https://www.cnblogs.com/zjutzz/p/5960289.html

blob是caffe中的基本数据结构，简单理解就是一个“4维数组”。但是，这个4维数组有什么意义？
BTW，TensorFlow这款google出的框架，带出了tensor（张量）的概念。虽然是数学概念，个人还是倾向于简单理解为“多维数组”，那么放在这里，caffe的blob就相当于一个特殊的tensor了。而矩阵就是二维的张量。

anyway，看看blob的4个维度都代表什么：

num: 图像数量
channel：通道数量
width：图像宽度
height：图像高度

caffe中默认使用的SGD随机梯度下降，其实是mini-batch SGD，每个batch，就是一堆图片。这一个batch的图片，就存储在一个blob中。

当然，blob并不是这么受限的、专门给batch内的图片做存储用的。实际上，参数、梯度，也可以用blob存储的。只要是caffe的网络中传递的数据，都可以用blob存储。

而且，blob实际上也并不一定是4维的。它在实现上其实就是1维的指针，而我们作为用户感受到的“多个维度”是通过shape来操作的。

下面用faster-rcnn 之 RPN网络进行说明

【前面5层】：作者RPN网络前面的5层借用的是ZF网络，这个网络的结构图我截个图放在下面，并分析下为什么是这样子的；

1、首先，输入图片大小是 224*224*3（这个3是三个通道，也就是RGB三种）

2、然后第一层的卷积核维度是 7*7*3*96 （意义是96个三位的7*7*3卷积核）；

3、所以conv1得到的结果是110*110*96 （这个110来自于 (224-7+pad)/2 +1 ，这个pad是我们常说的填充，也就是在图片的周围补充像素，这样做的目的是为了能够整除，除以2是因为2是图中的stride，这个计算方法在上面建议的文档中有说明与推导的）；

4、然后就是做一次池化，得到pool1，池化的核的大小是3*3，所以池化后图片的维度是55*55*96 （ (110-3+pad)/2 +1 =55 ）；

5、然后接着就是再一次卷积，这次的卷积核的维度是5*5*96*256 ，得到conv2：26*26*256；

6、后面就是类似的过程了，我就不详细一步步算了，要注意有些地方除法除不尽，作者是做了填充了，在caffe的prototxt文件中，可以看到每一层的pad的大小；

7、最后作者取的是conv5的输出，也就是13*13*256送给RPN网络的；

说明：

第一感觉是，conv1得到的应该是110x110x3x96的结果，而不是110x110x96。后来问了别人，再看看书，发现自己忽略了一个细节，就是卷积之后有一个∑和sigmoid的两个过程，前者是累加，后者是映射到0-1之间。具体到faster-rcnn，∑对应的就是：各个通道上对应位置做累加；而激活函数使用的应该是ReLU吧。anyway，这里的累加和激活函数处理后，通道数就变成了一个；也就是，对于一个滤波器，滑窗滤波+累加、激活函数后，得到的一个feature map。

再具体点说，这里的滤波器（卷积核），是3维的，(Width,Height,Channel)这样；我们用它在一个feature map上按滑窗方式做卷积，其实是所有Channel上同时做sliding window的操作；每个sliding windows位置上，所有通道卷积的结果累加起来，再送给激活函数ReLU处理，就得到结果feature map中的一个像素的值。

值得注意的是，滤波器的通道数量，和要处理的feature map的通道数量，其实可以不一样的，可以比feature map维度少一点，这相当于可以自行指定要选取feature map中的某些channel做卷积操作，相当于有一个采样的过程，甚至可以仅仅使用一个channel的卷积结果。具体例子，可以参考《人工智能（第三版）》（王万良著）里面的例子，结合例子中算出的“要学习的参数数量”来理解。

【RPN部分】：然后，我们看看RPN部分的结构：

1、前面我们指出，这个conv feature map的维度是13*13*256的；

2、作者在文章中指出，sliding window的大小是3*3的，那么如何得到这个256-d的向量呢？这个很简单了，我们只需要一个3*3*256*256这样的一个4维的卷积核，就可以将每一个3*3的sliding window 卷积成一个256维的向量；

这里读者要注意啊，作者这里画的示意图仅仅是针对一个sliding window的；在实际实现中，我们有很多个sliding window，所以得到的并不是一维的256-d向量，实际上还是一个3维的矩阵数据结构；可能写成for循环做sliding window大家会比较清楚，当用矩阵运算的时候，会稍微绕些；

3、然后就是k=9，所以cls layer就是18个输出节点了，那么在256-d和cls layer之间使用一个1*1*256*18的卷积核，就可以得到cls layer，当然这个1*1*256*18的卷积核就是大家平常理解的全连接；所以全连接只是卷积操作的一种特殊情况（当卷积核的大小与图片大小相同的时候，其实所谓的卷积就是全连接了）；

4、reg layer也是一样了，reg layer的输出是36个，所以对应的卷积核是1*1*256*36，这样就可以得到reg layer的输出了；

5、然后cls layer 和reg layer后面都会接到自己的损失函数上，给出损失函数的值，同时会根据求导的结果，给出反向传播的数据，这个过程读者还是参考上面给的文档，写的挺清楚的；