SSD架构，你不来看看么？

最新推荐文章于 2024-10-10 18:28:04 发布

万物琴弦光锥之外

最新推荐文章于 2024-10-10 18:28:04 发布

阅读量591

点赞数 1

分类专栏：神经网络机器学习文章标签：计算机视觉深度学习神经网络机器学习卷积神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43702920/article/details/108032213

版权

机器学习同时被 2 个专栏收录

60 篇文章 3 订阅

订阅专栏

26 篇文章 0 订阅

订阅专栏

SSD

前言总结
SSD骨架网络结构
SSD特征提取网络结构
锚点框Anchor Boxes和选框预测
物体选框和锚点框的匹配
损失函数

前言总结

SSD骨架网络结构

VGG16部分作为特征提取

SSD特征提取网络结构

SD300 也叫 VGG16Extractor300
提取了6个特征张量

锚点框Anchor Boxes和选框预测

Anchor Box 为了实现特征图上的一个点能预测多个物体！

Anchor Box的基础大小有7个
选框可有两个正方形，高宽2:1,1:2, 3:1 1:3 ⇒ 最多六个,最少4个

SSD骨架网络结构

结构采用VGG16的conv4和conv5

图引用自《深入浅出PyTorch 从模型到源码》

SSD特征提取网络结构

和VGG输入大小不一样，这次是 $300\times300$ 输入，VGG16是 $224\times224$ 输入
最后的输出特征空间大小为 $1\times1$ ，有256张，也就是 $256\times1\times1$

图引用自《深入浅出PyTorch 从模型到源码》

VGG16Extractor300
提取了六个特征层

conv4_3
conv7
conv8_2
conv9_2
conv10_2
conv11_2

在这里插入图片描述

锚点框Anchor Boxes和选框预测

六张特征图
七个Anchor Box 基础尺寸
- 30, 60, 111, 162, 213, 265, 315
特征相对于原图的步长
- 8, 16, 32, 64, 100, 300

如何根据特征图中的点计算原图中的坐标？

假设$(i,j)$为整数，也就是格子图中的左上角坐标, 那么原图中为
$(stride\times(i+0.5),stride\times(j+0.5))$

那知道了原图中对应的中心点坐标，如何知道对应原输入图像中的宽高呢？

😃

如此计算，也解释了为什么有7个基础尺寸！就是为了一个大正方形！
在这里插入图片描述

我们求到了输入原始图像中，真实框的大小和坐标(x,y,w,h), 然后和神经网络预测的框直接求误差？

不是的！我们要求误差！！但是是一个变换！！！

图引用自《深入浅出PyTorch 从模型到源码》

其中 $(x^{'}, y^{'}, w^{'}, h^{'})$ 是神经网络预测的框

物体选框和锚点框的匹配

我们知道，COCO数据集的标签框是 $x_1,y_1,w,h）$ 即左上角左边和宽高。
因此第一步:

坐标转换成两种：
- 第一种坐标： $x_c,y_c,w,h)$ 即中心坐标化
- 第二种坐标： $x_1,y_1,x_2,y_2)$ 即左上角和右下角坐标

匹配物体框和锚点框：

一个锚点框能且只能匹配一个目标框（IOU最大者）
一个目标框却可以匹配多个锚点框，然后计算 $g_x, g_y, g_w, g_h)$ , 并分配标签。

损失函数

F.smooth_l1_loss
避免异常值影响
Huber Estimator
它其实就是k=1情况下的Huber Estimator!!

万物琴弦光锥之外

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

万物琴弦光锥之外 给个0.1,恭喜老板发财

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。