自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Vision Transformer

的全部过程可以表示如下:多头注意力机制就是将原本处理的向量分割为多个Head进行处理,这也是attention结构可以进行并行加速的一个方面。多头注意力机制在保持参数总量不变的情况下,将同样的query, key和value映射到原来的高维空间(Q,K,V)的不同子空间中进行自注意力的计算,最后再合并不同子空间中的注意力信息。结构与等结构的拼接就可以形成的基础结构。

2024-06-03 20:58:45 566

原创 SSD源码解析

借鉴的代码使用的是resnet50作为backbone,具体网络结构如下所示,舍弃conv_5x结构及其之后的网络,并且改变conv_4中第一个block的卷积核的stride,从2->1。因此在backbone中,用net.children()取前7个,同时系应该conv_4中block的步距。forward中传入的参数:bboxes_in是预测的回归参数,scores_in是预测的类别参数。之后采用论文中的方法获取负样本,具体代码编写的方法是英伟达在实现过程中编写的代码方法。

2024-04-22 21:43:37 380

原创 SSD算法解析

SSD是one-stage 经典目标检测网络。Faster RCNN存在的问题:1.对小目标的检测效果很差2.模型大,检测速度较慢看文章的时候,好像文章都默认s2(stride=2)的时候,padding=1, s1(stride=1)时,padding=0SSD采用VGG16作为基础模型,并且做了以下修改,如下图所示分别将VGG16的全连接层FC6和FC7转换成 3x3 的卷积层 Conv6和 1x1 的卷积层Conv7去掉所有的Dropout层和FC8层。

2024-04-11 22:23:47 952

原创 Faster R-CNN

图展示了python版本中的VGG16模型中的faster_rcnn_test.pt的网络结构,可以清晰的看到该网络对于一副任意大小PxQ的图像:首先缩放至固定大小MxN,然后将MxN图像送入网络;而Conv layers中包含了13个conv层+13个relu层+4个pooling层;RPN网络首先经过3x3卷积,再分别生成positive anchors和对应bounding box regression偏移量,然后计算出proposals;

2024-04-10 22:11:08 355 1

原创 Fast R-CNN

如下,对其中的一个channel进行操作输出结果:边界框回归参数指的是【偏移量】

2024-04-08 18:49:51 160

原创 R-CNN

R-CNN是很早的框架,最后的改进大多源于R-CNN。对每一列进行非极大值抑制,可以剔除很多重叠的候选框。这个具体的运算在Fast rcnn会写。

2024-04-07 14:58:18 132

原创 目标检测前言(认识评价指标、PASCAL VOC2012数据集、Microsoft COCO数据集、非极大值抑制)

采用单调递增的方式向右查找,直至找到满足I[i]>I[i+1]的元素,若i<=W-1,该点即为极大值点,对应算法流程第10-11行。对于极大值点I[i],已知I[i]>I[i+1],故无需对i+1位置元素做进一步处理,直接跳至i+2位置,对应算法流程第12行。判断一维数组I[W]的元素I[i](2<=i<=W-1)是否为局部极大值,即大于其左邻元素I[i-1]和右邻元素I[i+1]当id=3时,有两个预测框,绿色的表示GT(标注好的框),如何将其填入表格,如蓝色部分所示,依据IOU来填写OB的值。

2024-03-29 15:14:32 771 1

原创 ResNet解析

我们将H(x)看作一个由部分堆叠的层(并不一定是全部的网络)来拟合的底层映射,其中x是这些层的输入。假设多个非线性层能够逼近复杂的函数,这就等价于这些层能够逼近复杂的残差函数,例如, H(x)−x(假设输入和输出的维度相同)。值得注意的是,虽然层的深度明显增加了,但是152层ResNet的计算复杂度(113亿个FLOPs)仍然比VGG-16(153 亿个FLOPs)和VGG-19(196亿个FLOPs)的小很多。在一个的常规的比较浅的模型上添加新的层,而新的层是基于 identity mapping 的。

2024-03-27 11:18:32 895

原创 导入springBoot项目运行不了,需要进行run配置的问题

作为一个java小白,从前也没有用springBoot做过项目,突然导入一个project时还不知道怎么操作,想要运行时发现连运行的选项都没有,需要进行run配置,配置时main class也是选不中当时启动项的。这么基础的问题,好吧,我真是小白!2.点击项目的pom文件,右键选中“Add as Maven project”(大概是这个),然后idea会自动帮你配置好run,直接运行就可以了。之后导入的时候可以选择以maven项目导入应该是正确的做法,不需要进行额外的run配置。

2024-03-25 18:26:10 384

原创 关于卷积神经网络中一些名词的解释合集(Feature map,filter,上下采样等)

在cnn的每个卷积层,数据都是以三维形式存在的。你可以把它看成许多个二维图片叠在一起(像豆腐皮一样),其中每一个称为一个feature map。输入层:在输入层,如果是灰度图片,那就只有一个feature map;如果是彩色图片,一般就是3个feature map(红绿蓝)。其它层:层与层之间会有若干个卷积核(kernel)(也称为过滤器),上一层每个feature map跟每个卷积核做卷积,都会产生下一层的一个feature map,有N个卷积核,下层就会产生N个feather map。

2024-03-22 14:18:57 708

原创 GoogLeNet网络结构(自用)

深度层面,就是增加网络的层数,而宽度方面,就是增加每层的filter bank尺寸。所以考虑,希望在增加网络深度和宽度的同时减少参数,Inception架构的主要想法是考虑【怎样用密集模块来近似最优的局部稀疏结构 】,由此产生了inception module。最终的结果运行时间很长,最好的达到了0.769,目前还没有优化,之后可以试着优化一下。1.更大的尺寸通常意味着更多的参数,也更容易导致网络的过拟合,尤其是样本不足的情况下。2.即使均匀的增加网络每层的尺寸,也会急剧(指数形式)增加总的运算量。

2024-03-21 14:43:59 668 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除