【1】图像分割 - Backbone整理汇总

Zora.wang

已于 2022-09-27 17:13:08 修改

阅读量1.3k

点赞数 1

分类专栏：工业缺陷检测

于 2022-09-20 15:47:29 首次发布

本文链接：https://blog.csdn.net/weixin_44505185/article/details/126954820

版权

工业缺陷检测专栏收录该内容

7 篇文章

订阅专栏

骨干网络(backbone) 检测头Backbone与Detection head

分类网络迁移过来，用作特征提取器（通过在OD数据集上进行微调，并且与后续的网络的共同训练，使得它提取出来的特征更适合OD任务），后续的网络负责从这些特征中，检测目标的位置和类别。那么，我们就将分类网络所在的环节称之为“Backbone”，后续连接的网络层称之为“Detection head”。

骨干网络(backbone)

在现代深度学习算法研究中，通用的骨干网+特定任务网络head成为一种标准的设计模式。

CNN Backbone往往是各种CNN模型的一个共享结构。

《目标检测》-第2章-Backbone与Detection head - 知乎

关于卷积神经网络(CNN)骨干结构的思考

概念

什么是机器学习、模式识别？

机器学习、模式识别、深度学习等等模型的目的，是压缩。对数据的背诵这不是压缩，对特征的提取才是压缩。

传统手工计算机视觉任务和卷积神经网络(CNN)共享哪些特性？

它们都抓住了、而且必须抓住平移、镜像、一定程度上的缩放不变性，只要满足不变性，相似的特征表征能力一定强。CNN的新工作还有旋转不变性、仿射变换不变性和时间轴上的灰度不变性。设计思路不包含这些不变性的，一般都是逗比。

一般的CNN模型，（比如在ImageNet上训练的模型）压缩效果如何？

在ImageNet上训练的不少模型，把2 ^ (224 * 224 * 3 * 8bit)的数据空间中的数据特征用少到几十万，大到几亿的参数表征出来，起到了局部或者全局特征的提取，从而用特征进行各种任务。重要的是很多任务可以通过1次定义结构端到端完成。

用于计算机视觉分类的CNN为何重要？

它是Object Detection, Scene Parsing, OCR等任务的前导性任务，往往也被称为Backbone Model。而且在上面快速实验很多元方法，比如dropout，attention，套用GAN等等是直接、方便的。

CNN存在什么问题？

要求概率图可微分这个假设很强，在CNN里体现为参数连续，而很多超参离散，使用同样的NN技巧自动连续超参还凑合，离散会碰到各种问题。

重要结构梳理

知道为什么，远比知道是什么重要。论文是读不过来的。但是读论文可以通过多读好文、浏览水文、搭配烂文提高品位。

我们应该关心结构的哪方面

CNN Backbone往往是各种CNN模型的一个共享结构

概念中提到，它是Object Detection, Scene Parsing, OCR等任务的前导性任务。
- AlexNet: https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
- VGG: https://arxiv.org/pdf/1409.1556.pdf
- Residual Network: https://arxiv.org/pdf/1512.03385.pdf
- Wide ResNet: https://arxiv.org/pdf/1605.07146.pdf
- FractalNet: https://arxiv.org/pdf/1605.07648.pdf
- ResNeXt: https://arxiv.org/pdf/1611.05431.pdf
- GoogleNet: https://arxiv.org/pdf/1409.4842.pdf
- Inception: https://arxiv.org/pdf/1602.07261.pdf
- DenseNet: https://arxiv.org/pdf/1608.06993.pdf
- SORT: https://arxiv.org/pdf/1703.06993.pdf
- Compact Bilinear: https://arxiv.org/pdf/1511.06062.pdf
这个共享结构除了结构性的超参（总深度、总宽度）以外，反复使用了多种技巧，其中包括
- Residual(残差): 直接elementwise加法。
- Concat(特征拼接): 直接对特征深度作拼接。
- Bottleneck(特征压缩): 通过Conv(1,1)对稀疏的或者臃肿的特征进行压缩
- Grouping(分组): fc-softmax分类器从1个观察点把不同类靠空间球心角分离开，不同类放射状散开不符合高斯假设。分组改善了这一点。
- Fractal(分形模式): 结构复用，可能带来好处
- High-Order(高阶): 在非分组时，可能带来好处
- Asymmetric(非对称): Conv(1,3),Conv(1,5),Conv(1,7)属于非对称结构，这个技巧在OCR处理长宽非1:1的字体有用
再次的，我们对结构有一个重新的审视
- AlexNet/VGG: 普通
- VGG: 加深
- ResNet: 通过x+F(x)直接加法实现了Residual模块
- Wide ResNet: 加宽
- FractalNet: 结构复用，使用Concat
- ResNeXt: ResNet基础上对Conv(3,3)使用了分组，但是如果Conv(1,1)也分组甚至精度不降
- GoogleNet/Inception: 大量的非对称技巧
- DenseNet: 大量使用压缩
- SORT: 一个小trick使用elementwise x*F(x)实现高阶
- Compact Bilinear: 通过学习矩阵A实现x’Ay实现制造新的特征