weixin_51363643-CSDN博客

原创 Vision Transformer

的全部过程可以表示如下：多头注意力机制就是将原本处理的向量分割为多个Head进行处理，这也是attention结构可以进行并行加速的一个方面。多头注意力机制在保持参数总量不变的情况下，将同样的query, key和value映射到原来的高维空间（Q,K,V）的不同子空间中进行自注意力的计算，最后再合并不同子空间中的注意力信息。结构与等结构的拼接就可以形成的基础结构。

2024-06-03 20:58:45 629

借鉴的代码使用的是resnet50作为backbone,具体网络结构如下所示，舍弃conv_5x结构及其之后的网络，并且改变conv_4中第一个block的卷积核的stride，从2->1。因此在backbone中，用net.children()取前7个，同时系应该conv_4中block的步距。forward中传入的参数：bboxes_in是预测的回归参数，scores_in是预测的类别参数。之后采用论文中的方法获取负样本，具体代码编写的方法是英伟达在实现过程中编写的代码方法。

2024-04-22 21:43:37 510

原创 SSD算法解析

SSD是one-stage 经典目标检测网络。Faster RCNN存在的问题：1.对小目标的检测效果很差2.模型大，检测速度较慢看文章的时候，好像文章都默认s2（stride=2）的时候，padding=1， s1（stride=1）时，padding=0SSD采用VGG16作为基础模型，并且做了以下修改，如下图所示分别将VGG16的全连接层FC6和FC7转换成 3x3 的卷积层 Conv6和 1x1 的卷积层Conv7去掉所有的Dropout层和FC8层。

2024-04-11 22:23:47 1123

原创 Faster R-CNN

图展示了python版本中的VGG16模型中的faster_rcnn_test.pt的网络结构，可以清晰的看到该网络对于一副任意大小PxQ的图像：首先缩放至固定大小MxN，然后将MxN图像送入网络；而Conv layers中包含了13个conv层+13个relu层+4个pooling层；RPN网络首先经过3x3卷积，再分别生成positive anchors和对应bounding box regression偏移量，然后计算出proposals；

2024-04-10 22:11:08 409 1

原创 Fast R-CNN

如下，对其中的一个channel进行操作输出结果：边界框回归参数指的是【偏移量】

2024-04-08 18:49:51 180

原创 R-CNN

R-CNN是很早的框架，最后的改进大多源于R-CNN。对每一列进行非极大值抑制，可以剔除很多重叠的候选框。这个具体的运算在Fast rcnn会写。

2024-04-07 14:58:18 166

原创目标检测前言（认识评价指标、PASCAL VOC2012数据集、Microsoft COCO数据集、非极大值抑制）

采用单调递增的方式向右查找，直至找到满足I[i]>I[i+1]的元素，若i<=W-1，该点即为极大值点，对应算法流程第10-11行。对于极大值点I[i]，已知I[i]>I[i+1]，故无需对i+1位置元素做进一步处理，直接跳至i+2位置，对应算法流程第12行。判断一维数组I[W]的元素I[i](2<=i<=W-1)是否为局部极大值，即大于其左邻元素I[i-1]和右邻元素I[i+1]当id=3时，有两个预测框，绿色的表示GT（标注好的框），如何将其填入表格，如蓝色部分所示，依据IOU来填写OB的值。

2024-03-29 15:14:32 964 1

原创 ResNet解析

我们将H(x)看作一个由部分堆叠的层（并不一定是全部的网络）来拟合的底层映射，其中x是这些层的输入。假设多个非线性层能够逼近复杂的函数，这就等价于这些层能够逼近复杂的残差函数，例如, H(x)−x（假设输入和输出的维度相同）。值得注意的是，虽然层的深度明显增加了，但是152层ResNet的计算复杂度(113亿个FLOPs)仍然比VGG-16(153 亿个FLOPs)和VGG-19(196亿个FLOPs）的小很多。在一个的常规的比较浅的模型上添加新的层，而新的层是基于 identity mapping 的。

2024-03-27 11:18:32 1020 1

原创导入springBoot项目运行不了，需要进行run配置的问题

作为一个java小白，从前也没有用springBoot做过项目，突然导入一个project时还不知道怎么操作，想要运行时发现连运行的选项都没有，需要进行run配置，配置时main class也是选不中当时启动项的。这么基础的问题，好吧，我真是小白！2.点击项目的pom文件，右键选中“Add as Maven project”(大概是这个)，然后idea会自动帮你配置好run，直接运行就可以了。之后导入的时候可以选择以maven项目导入应该是正确的做法，不需要进行额外的run配置。

2024-03-25 18:26:10 653 1

原创关于卷积神经网络中一些名词的解释合集（Feature map,filter,上下采样等）

在cnn的每个卷积层，数据都是以三维形式存在的。你可以把它看成许多个二维图片叠在一起（像豆腐皮一样），其中每一个称为一个feature map。输入层：在输入层，如果是灰度图片，那就只有一个feature map；如果是彩色图片，一般就是3个feature map（红绿蓝）。其它层：层与层之间会有若干个卷积核（kernel）（也称为过滤器），上一层每个feature map跟每个卷积核做卷积，都会产生下一层的一个feature map，有N个卷积核，下层就会产生N个feather map。

2024-03-22 14:18:57 1025 1

原创 GoogLeNet网络结构（自用）

深度层面，就是增加网络的层数，而宽度方面，就是增加每层的filter bank尺寸。所以考虑，希望在增加网络深度和宽度的同时减少参数，Inception架构的主要想法是考虑【怎样用密集模块来近似最优的局部稀疏结构】，由此产生了inception module。最终的结果运行时间很长，最好的达到了0.769，目前还没有优化，之后可以试着优化一下。1.更大的尺寸通常意味着更多的参数，也更容易导致网络的过拟合，尤其是样本不足的情况下。2.即使均匀的增加网络每层的尺寸，也会急剧（指数形式）增加总的运算量。

2024-03-21 14:43:59 719 2