TowardsDataScience 博客中文翻译 2019（四百二十八）

最新推荐文章于 2024-10-01 00:29:05 发布

绝不原创的飞龙

最新推荐文章于 2024-10-01 00:29:05 发布

阅读量1.2k

点赞数 20

分类专栏： MLM 文章标签： MLM

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

本文链接：https://blog.csdn.net/wizardforcel/article/details/142646745

版权

MLM 专栏收录该内容

3745 篇文章

订阅专栏

原文：TowardsDataScience Blog

协议：CC BY-NC-SA 4.0

综述:多通道—分割结肠组织学图像(生物医学图像分割)

原文：https://towardsdatascience.com/review-multichannel-segment-colon-histology-images-biomedical-image-segmentation-d7e57902fbfc?source=collection_archive---------15-----------------------

使用 FCN 的前景分割+使用 HED 的边缘检测+使用更快的 R-CNN 的对象检测

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Gland Haematoxylin and Eosin (H&E) stained slides and ground truth labels

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Foreground Segmentation using FCN + Edge Detection Using HED + Object Detection Using Faster R-CNN

在这个故事里，多路简要回顾。它是一个深度多通道神经网络，用于腺体实例分割。这种方法，如上图所示，融合来自 3 个子网络的结果:前景分割使用 FCN ，边缘检测使用 HED，对象检测使用 更快的 R-CNN **。**使用 2015 MICCAI 腺体分割挑战数据集获得了最先进的结果。作者在 2016 年首次发表多通道 MICCAI ，仅使用 2 个子网络:使用 FCN 的前景分割和使用 hed 的边缘检测。然后他们增强了会议版本，使用更快的 R-CNN 添加了对象检测。本增强版于 2017 年 TBME 出版。由于事务版本要详细得多，虽然我已经阅读了这两个版本，但我将在这里呈现事务版本。( Sik-Ho Tsang @中)

概述

第一子网:前景分割通道
第二子网:边缘检测通道
第三子网:物体检测通道
定影多通道
与最先进方法的比较
进一步消融研究

1。第一子网:前景分割通道

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

1st Sub-Network: Foreground Segmentation Channel

FCN-32s 用作网络中前景分割通道。
然而，由于 FCN-32s 产生的输出特征图较小，不利于分割。在的扩展网中提出的扩展卷积用于增强的 FCN 。
pool4 和 pool5 的步距是 1。
并且随后的回旋层通过扩大的回旋来扩大感受野。
训练时使用 Softmax 交叉熵损失。
使用预先训练好的 FCN-32s 。

2.第二子网:边缘检测通道

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2nd Sub-Network: Edge Detection Channel

边缘通道基于整体嵌套的边缘检测器(HED)。
它学习分层嵌入的多尺度边缘场，以说明轮廓和对象边界的低级、中级和高级信息。
对于第 m 次预测:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

输出为特征图 h () 的 sigmoid 函数 σ 。
最后是不同尺度边缘场的加权融合。
在训练期间使用 Sigmoid 交叉熵损失。
使用 Xavier 初始化。
地面实况边缘标签由区域标签生成。如果所有相邻(上、下、左、右)像素都是前景或背景，则该像素不是边缘。

3。第三子网:物体检测通道

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3rd Sub-Network: Object Detection Channel

更快 R-CNN 这里用的是，但是有修饰。
填充操作在生成区域建议后完成。
边界框覆盖的区域中的每个像素的值等于它所属的边界框的数量。
例如，如果一个像素位于三个边界框的重叠区域，则该像素的值将为 3。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

𝜙是灌装操作。
损耗与fast R-CNN中的一样，即分类损耗和回归损耗之和。
使用预训练的更快的 R-CNN 。
使用包围每个腺体的最小矩形来生成地面真实边界框。

4。定影多通道

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fusing Multichannel

使用 7 层 CNN。
同样，在 DilatedNet 中使用的扩张卷积在这里被用来代替下采样。
使用 Xavier 初始化。

5。与最先进方法的比较

5.1.资料组

MICCAI 2015 腺体分割挑战大赛
165 标记的结肠直肠癌组织学图像
原图，大部分是 775×522。
训练集:85 幅图像
测试集:80 幅图像。(测试集 A 包含 60 幅图像，测试集 B 包含 20 幅图像)。训练集中有 37 个良性部分和 48 个恶性部分，测试集 A 中有 33 个良性部分和 27 个恶性部分，测试集 b 中有 4 个良性部分和 16 个恶性部分

5.2.数据扩充

数据增强策略一:水平翻转和 0、90、180、270°旋转。
数据扩充策略二:弹性转换就像 U-Net 里的那个。

5.3.估价

使用了三个指标: F1 得分、 ObjectDice 和 ObjectHausdorff 。
F1 得分:由 precision P 和 recall R 测得的得分，超过 50%的重叠定义为真阳性。
ObjectDice :分割的度量标准。
ObjectHausdorff :测量形状相似度的度量。
(详情请看我对 CUMedVision2 / DCAN 的点评。)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

RS 和 WRS 分别是基于 F1 评分的秩和与加权秩和，ObjectDice 和 ObjectHausdorff。
我们可以看到，在 A 部分和 B 部分测试集中，多通道几乎获得了所有的 rank 1，这意味着多通道优于， CUMedVision1 ， CUMedVision2 / DCAN ， FCN 和expanded FCN(DeepLab)。
一些定性结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

5.3.与实例分割方法的比较

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

多通道比所有的实例分割方法都要好，例如 MNC 。
当仅在边界框内(即倒数第二行)分割时，结果也不如融合方法。
边缘 3 表示边缘被半径为 3 的圆盘过滤器扩大。
一些定性结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

6。进一步消融研究

6.1.数据扩充

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用数据增强策略 II(弹性变换)更好。

6.2.多通道的不同融合变体

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

边缘 3 表示边缘被半径为 3 的圆盘过滤器扩大。这意味着增加边缘的宽度，以处理训练过程中边缘和非边缘像素的不平衡。
前 3 行:不使用扩张卷积，性能较差。
最后 2 排:只有 2 个通道(或子网)进行融合，性能也较逊色。
中间 3 排:带扩张卷积，加 3 个通道，性能最好。

参考

【2016 MICCAI】【多通道】
汽封实例分割由深多通道侧监督

【2017 TBE】【多通道】
利用深度多通道神经网络进行腺体实例分割

我以前的评论

)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(去)(。 )(他)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(呢)(?)(她)(们)(都)(不)(在)(这)(些)(情)(况)(下)(,)(她)(们)(还)(是)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(吗)(?)(她)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(好)(的)(情)(情)(情)(况)(。

物体检测 过食 R-CNN 快 R-CNN 快 R-CNN DeepID-Net】R-FCN】离子多路径网 NoC yolo 9000[yolov 3][FPN][retina net][DCN]

语义切分 FCN de convnet deeplab v1&deeplab v2 SegNet】【parse netdilated net PSP net deeplab v3 DRN

生物医学图像分割 [cumed vision 1][cumed vision 2/DCAN][U 网][CFS-FCN][U 网+ResNet ]

实例分段 DeepMask SharpMask MultiPathNet MNC InstanceFCN FCIS 】

)(我)(们)(都)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(。

点评:多路径网络/多路径/MPN—2015 年 COCO 检测和分割(对象检测/实例分割)亚军

原文：https://towardsdatascience.com/review-multipath-mpn-1st-runner-up-in-2015-coco-detection-segmentation-object-detection-ea9741e7c413?source=collection_archive---------24-----------------------

多个网络层，视网膜中央凹结构和整体损失，信息在网络中沿多条路径流动

在这个故事中，脸书 AI 研究的MultiPath net/MultiPath/MPN进行了回顾。这种方法在 GitHub 中被命名为 MultiPathNet，在本文中称为 MultiPath。在 SharpMask 中它也被称为 MPN。对做了三处修改，以改进快速 R-CNN :

视网膜中央凹结构以多种物体分辨率利用物体环境。
跳过连接，该连接允许探测器访问多个网络层的功能。
积分损失函数和改善定位的相应网络调整。

再加上 SharpMask 天体提议，组合系统将的结果提高到超过基线 快速 R-CNN 探测器，选择性搜索总体提高 66% ，小天体提高 4 倍**。**它在 COCO 2015 检测和细分挑战中均获得第二名。发表在 2016 BMVC 上，被 100 多次引用。( Sik-Ho Tsang @中)

涵盖哪些内容

视网膜中央凹结构
跳过连接
积分损失函数
消融研究
结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

MultiPath Architecture

1。视网膜中央凹结构

除了原来的1×ROI 集中区域尺寸外，还开发了如上图所示的额外的 1.5×、2×和 4× ROI 集中区域。这提供了不同大小的视网膜中央凹区域。

这四个 ROI 汇集区域经过完全连接的(FC)层(FC5 和 FC6)，然后连接成单个长特征向量(4096×4) 。

2.跳过连接

在使用 VGG16 作为主干的原始快速 R-CNN 中，只有 conv5 层用于 ROI 合并。在此图层中，要素的缩减采样系数为 16。然而， 40%的 COCO 对象的面积小于 32×32 像素，20%小于 16×16 像素，因此这些对象将在此阶段分别被缩减采样为 2×2 或 1×1。RoI-pooling 会将它们上采样到 7×7，但是由于对特征的 16 倍下采样，大多数空间信息将会丢失。

因此，由或建议的跳过池在 conv3 执行，con4 和 conv5 也用于 ROI 池。这个想法是早期层通常比后期层有更大的值，这在 ParseNet 中提到过。因此，在拼接之前，每个汇集的 ROI 被 L2 归一化 并通过经验确定的比例重新按比例放大。之后，执行 1×1 卷积以降低维度以适应分类器输入维度。

这些跳跃连接使分类器能够以多种分辨率访问来自要素的信息。

3.积分损失函数

在 PASCAL 和 ImageNet 数据集中，评分标准仅关注 50 以上的交集(IoU ),即 AP⁵⁰.然而，COCO 数据集在从 50 到 95 的 IoU 范围内评估 AP。

在最初的快速 R-CNN 中，损失函数只关注优化 AP⁵⁰:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第一项 Lcls 是分类对数损失，而第二项 Lloc 是边界框定位损失。 k* ≥1 仅当 IoU 大于 50。否则 k* =0，忽略第二项损失。

总的来说， Lcls 被修改以适应 COCO 评估指标:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上述等式将积分近似为一个和，其中 du = 5。

具体来说，只考虑 6 个 IoU 阈值，从 50、55、…、到 75。修改后的损失变成:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中 n =6， u 从 50，55，…，到 75。在培训期间，随着 u 的增加，与实际情况相重叠的建议会减少。因此，它被限制为 u ≤75，否则，建议包含的用于训练的总正样本太少。

这个积分损失函数显示在上图的右边。

一些训练细节

在训练期间，每批有 4 个图像，每个图像有 64 个对象提议。在 4 个 NVIDIA Titan X GPUs 上大概需要 3 天。使用每个图像 30，1000 个建议的非最大抑制阈值。并且没有重量衰减。该网络需要 150 毫秒来计算特征，350 毫秒来评估视网膜中央凹区域，因此每个 COCO 图像总共需要 500 毫秒。

4.消融研究

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Left: Model improvements of our MultiPath network, Right: 4-region foveal setup versus the 10 regions used in multiregion

左:采用视网膜中央凹结构和跳跃连接，AP⁵⁰.获得 46.4%的 mAP 积分损失后，AP⁵⁰的平均积分下降到了 44.8%。这是因为积分损失是专门为 COCO 评估指标设计的。因此，我们可以看到使用积分损失后，总 AP 从 27.0 提高到 27.9。
右 : multiregion [9]在每个对象周围使用十个具有不同裁剪的上下文区域。在多路径中，仅使用 4 个视网膜中央凹区域。在没有积分损失的情况下，多径对于 AP⁵⁰.具有 45.2%的 mAP 在积分损失的情况下，获得了 26.9%的总 mAP。多路径总是比多区域好。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Left: MultiPath with different IoU thresholds and with Integral loss, Right: Integral loss with different number of u.

左:每个标准模型在用于训练的阈值下表现最佳，而使用积分损失在所有设置下产生良好的结果。
右:积分损失达到 6 头最佳 AP。

5.结果

5.1.区域提议技术

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AP⁵⁰ and overall AP versus number and type of proposals.

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AP⁵⁰ and overall AP with different approaches. (SS: Selective Search, DM: DeepMask)

在最初的快速 R-CNN 中，第一步是使用选择性搜索(SelSearch)来生成多个区域提议。对于每个提案，ROI 池在 conv5 上执行，并通过 FC 层进行分类和定位。
因此，求婚技巧至关重要。
结果是每张图片有大约 400 个深度蒙版提议。
仅使用 50 个深度屏蔽建议就可以匹配 2000 个选择性搜索建议的准确性。

5.2.其他技术

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

trainval :追加训练用 COCO 验证数据。
hflip :水平翻转，平均结果。
FMP :分数最大汇集，简而言之，是多个 ROI 汇集操作，具有扰动的汇集参数并平均 softmax 输出。
组合:采用 6 模组合。
通过以上 4 项技术，AP⁵⁰和整体 AP 都有了很大的提高。

5.3.COCO 2015 检测和分割

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Top: Segmentation Results, Bottom: Detection Results

多路径在检测和分段挑战中位居第二。
小对象的整体 AP 提高了 4 倍，AP⁵⁰提高了 82%。
如果使用 ResNet 主干网，AP 可以进一步提高。

5.4.定性结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

虽然存在遗漏对象和误报，但其中许多都相当不错。

论文和 COCO 检测排行榜中的结果略有不同。但是 SharpMask 中的结果与排行榜中的结果相同。(我不确定，但是)也许，在最后， SharpMask ，一个改进的 DeepMask ，被用作具有多路径提交的区域提议。

参考

【2016 BMVC】【多路径/MPN】
用于物体检测的多路径网络

)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(来)(。 )(我)(们)(都)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(。

物体检测 过食 R-CNN 快 R-CNN 快 R-CNN DeepID-Net R-FCN】离子固态硬盘 DSSD 约尔

语义切分 [FCN][de convnet][deeplab v1&deeplab v2][parse net][dilated net][PSPNet]

实例分割 深度遮罩锐度遮罩

综述:NIN —网络中的网络(图像分类)

原文：https://towardsdatascience.com/review-nin-network-in-network-image-classification-69e271e499ee?source=collection_archive---------9-----------------------

使用具有 1×1 卷积核的卷积层

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A few example images from the CIFAR10 dataset.

在这个故事中，对综合科学与工程研究生院和新加坡国立大学的网络中的网络(NIN) 进行了简要回顾。具有复杂结构的微型神经网络，用于提取感受野内的数据。这是一篇 2014 ICLR 论文，引用超过 2300 次。( Sik-Ho Tsang @中)

概述

线性卷积层 VS mlpconv 层
全连接层 VS 全球平均池层
网络中网络的整体结构(NIN)
结果

1。线性卷积层 VS mlpconv 层

1.1.线性卷积层

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Linear Convolutional Layer

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里( i ， j )是特征图中的像素索引， xij 代表以位置( i ， j )为中心的输入面片， k 用于索引特征图的通道。
然而，实现良好抽象的表示通常是输入数据的高度非线性函数。
作者认为，在将它们组合成更高层次的概念之前，对每个局部补丁进行更好的抽象是有益的。

1.2.mlpconv 层

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

mlpconv Layer

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

n 是多层感知器的层数。在多层感知器中，校正线性单元被用作激活函数。
上述结构允许跨渠道信息的复杂和可学习的交互。
它相当于一个 1×1 卷积核的卷积层。

2。全连接层 VS 全局平均池层

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

An Example of Fully Connected Layer VS Global Average Pooling Layer

2.1。全连接层

通常，全连接层用于网络末端。
然而，它们容易过度配合。

2.2.全球平均池层

这里引入了全球平均池。
其思想是在最后的 mlpconv 层中为分类任务的每个相应类别生成一个特征图。我们没有在特征地图上添加完全连接的层，而是取每个特征地图的平均值，得到的矢量直接输入到 softmax 层。
一个优点是，通过加强特征图和类别之间的对应，它对卷积结构来说更加自然。
另一个优点是在全局平均池中没有参数要优化，因此在这一层避免了过拟合。
此外，全局平均池汇总了空间信息，因此对于输入的空间平移来说更加健壮。

3.网络中网络的总体结构

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Overall Structure of Network In Network (NIN)

这样，以上就是 NIN 的整体结构。
最后是全球平均池。

4.结果

4.1.CIFAR-10

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Error Rates on CIFAR-10 Test Set

NIN + Dropout 仅获得 10.41%的错误率，优于 Maxout + Dropout。
通过数据扩充(翻译和水平翻转)，NIN 甚至获得了 8.81%的错误率。
(有兴趣的话， NoC 里有一个非常简短的关于 Maxout 的介绍。)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如上所示，在 mlpconv 层之间引入脱落层将测试误差降低了 20%以上。

4.1.西发尔-100

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Error Rates on CIFAR-100 Test Set

类似地，NIN + Dropout 仅获得 35.68%的错误率，这优于 Maxout + Dropout。

4.3.街景门牌号(SVHN)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Error Rates on SVHN Test Set

但是 NIN + Dropout 得到了 2.35%的错误率，比 DropConnect 还要差。

4.4.MNIST

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Error Rates on MNIST Test Set

在 MNIST，NIN + Dropout 得到 0.47%的错误率，比 Maxout + Dropout 差一点。

4.5.作为调整者的全球平均池

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Error Rates on CIFAR-10 Test Set

使用全球平均池，NIN 获得了 10.41%的错误率，这比完全连接+10.88%的退出要好。

在 NIN 中，对于 1×1 卷积，引入了更多的非线性，这使得错误率更低。

参考

【2014 ICLR】【NIN】
网络中的网络

我以前的评论

)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(去)(。 )(他)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(呢)(?)(她)(们)(都)(不)(在)(这)(些)(情)(况)(下)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(吗)(?)(她)(们)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(没)(有)(什)(么)(好)(的)(情)(情)(感)(。

物体检测 过食 R-CNN 快 R-CNN 快 R-CNN MR-CNN&S-CNN DeepID-Net CRAFT R-FCN】 [G-RMI][TDM][SSD][DSSD][约洛夫 1 ] [ 约洛夫 2 /约洛 9000 ] [ 约洛夫 3[FPN[视网膜网[DCN

语义切分 FCN de convnet deeplabv 1&deeplabv 2 CRF-RNN】SegNet】parse net dilated net DRN RefineNet

生物医学图像分割 [cumed vision 1][cumed vision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet][多通道][V-Net][3D U-Net][M FCN

实例分割 [ SDS ] [ 超列 ] [ 深度掩码 ] [ 锐度掩码 ] [ 多路径网络 ] [ MNC ] [ 实例中心 ] [ FCIS

【DeepPose】【汤普森 NIPS’14】【汤普森 CVPR’15】

综述:QSA+qnt——全卷积网络的量子化(生物医学图像分割)

原文：https://towardsdatascience.com/review-qsa-qnt-neural-network-with-incremental-quantization-biomedical-image-segmentation-d9713daf9e0d?source=collection_archive---------12-----------------------

对神经网络进行增量量化，作为正则项，减少过拟合

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A Photo Taken by Me in the Seminar Talk by Author Dr. Yiyu Shi

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

More photos

在这个故事中，回顾了圣母大学和华中科技大学的一篇名为“量子化全卷积网络用于精确生物医学图像分割”的论文。我只是在故事标题中称之为 QSA+QNT 自从量化应用于【SA】和网络训练(NT) 。这是一篇 2018 CVPR 中超过 10 次引用的论文。( Sik-Ho Tsang @中)

这是我参加的研讨会演讲，让我开始阅读关于生物医学图像分割的深度学习论文。

概述

简评 提示性注释【SA】
对 SA 架构的修改
量化的选择
消融研究
与最先进方法的比较

1.简要回顾暗示性注释【SA】

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Brief Review of SA

步骤 A :首先， 10%的样本经过专家标注，送入全卷积网络( FCN )进行训练。
步骤 B :然后，多个fcn用自举训练。
步骤 C :使用训练好的 FCNs 对未标注样本进行分割。
步骤 D & E :使用标准差的不确定性度量和使用余弦相似性的相似性估计用于在多个fcn中选择不确定但对专家来说与数据集相似的样本。
步骤 F(步骤 A) : 专家再次标注 10%的样本。但这次，这些样本是 SA 中的不确定性度量和相似性估计所建议的。
只有 50%的训练数据， SA 使用 100%的训练数据输出或接近最先进的方法。
因此，通过这种方式，专家可以从注释过多的样本中解放出来，即减少了注释工作，降低了成本，并且节省了时间成本。
更多详情，请阅读我关于 SA 的评论。

2.对 SA 架构的修改

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The New Part Comparing with SA

本文将《FCN》原著分为提示性的 FCN 和分割性的 FCN。
提示性 FCN :仅用于不确定性度量和相似性估计。
分段 FCN(新):仅用于分段。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Quantization on FCNs

最初，权重用 32 位表示。
现在，量化被引入到提示性 FCN 和分割 FCN 中(细节在后面的部分)。

3。量化的选择

3.1。量化

在保持可接受精度的同时，用较少的内存(精度)表示重量。
在硬件上启用低位宽 NN 的训练加速。

3.2.DoReFa-Net(超过 300 次谷歌引用)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(+1，-1) 根据值是大于还是小于均值来赋值。
从 32 位量化到 1 位。

3.3.三元权重网络(TWN)(超过 200 次谷歌引用)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(+α，-α，0) 根据数值是否接近、大于或小于均值来赋值。
从 32 位量化到 2 位。

3.4.增量量化(INQ)(超过 200 次谷歌引用)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

An Illustrative Example Provided by Authors During the Seminar Talk

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

量化到两个的次方即可。
我们发现，有时量化可以提高精度
在[1]中，它将 ImageNet 分类的 Top-1 错误提高了 0.01%
在[2]中，它对 ImageNet 分类的 Top-1 和 Top-5 错误提高了 0.2%-1.47%。

最后，本文采用了增量量化(INQ)。

4.消融研究

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fixed to 5 FCNs for suggestive FCN and 1 FCN for segmentation FCN (F is 32-bit)

建议 FCN (QSA)的 n 位量化，分段 FCN (NT/QNT)的 7 位量化
无论有无量化，使用 7 位量化性能最佳。
但是对分割 FCN (QNT)的量化并不总是能提高精度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fixed to 5 FCNs for suggestive FCN and 1 FCN for segmentation FCN (F is 32-bit)

分段 FCN (QNT)上的 n 位量化，带有/不带有暗示 FCN(南非/QSA)上的 7 位量化
无论有无量化，使用 7 位量化性能最佳。
对暗示性 FCN (QSA)的量化总是比没有量化的(SA)具有更高的准确性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

When 5 FCNs are used at both sides

分段 FCN (QNT)上的 n 比特量化，带有/不带有建议 FCN (SA)上的 7 比特量化。
无论有无量化，使用 7 位量化都具有最佳性能。
对分段 FCN (QNT)的 7 比特量化+对暗示 FCN (QNT)的 7 比特量化具有稍好的性能。
(论文中有更多结果，有兴趣请看论文。)

5.与最先进方法的比较

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

7 位量化对 5 分段 FCN (QNT) 和 7 位量化对 5 暗示 FCN (QNT)的表现优于 SA 、 多通道 (会议和事务两个版本)，以及cumed vision 2/DCAN。
7 位和 5 位量化的内存分别减少 4.6 倍和 6.4 倍。
这就像一个正则项。

结论是，量化的建议性标注可以应用于其他数据有限或标注成本较高的问题。

参考

【2018 CVPR】【QSA+qnt】
量子化全卷积网络精确生物医学图像分割

我以前的评论

)(他)(们)(都)(不)(在)(这)(些)(事)(上)(,)(我)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(?)(我)(们)(都)(不)(在)(这)(些)(情)(况)(上)(,)(我)(们)(还)(没)(有)(什)(么)(情)(况)(,)(我)(们)(还)(没)(有)(什)(么)(情)(况)(,)(我)(们)(还)(没)(有)(什)(么)(情)(况)(,)(我)(们)(还)(没)(有)(什)(么)(好)(好)(的)(情)(感)(。 )(他)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(呢)(?)(她)(们)(都)(不)(在)(这)(些)(情)(况)(下)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(吗)(?)(她)(们)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(好)(的)(情)(情)(况)(。 [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ]

物体检测 过食 R-CNN 快 R-CNN 快 R-CNN MR-CNN&S-CNN DeepID-Net CRAFT R-FCN】 [G-RMI][TDM][SSD][DSSD][约洛夫 1 ] [ 约洛夫 2 /约洛 9000 ] [ 约洛夫 3[FPN[视网膜网[DCN

语义切分 FCN de convnet deeplabv 1&deeplabv 2 CRF-RNN】SegNet】parse net dilated net DRN RefineNet

生物医学图像分割 [cumed vision 1][cumed vision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet][多通道][V-Net][3D U-Net][M FCN

实例分割 SDS Hypercolumn DeepMask SharpMask MultiPathNet MNC InstanceFCN FCIS

人体姿态估计
深度姿态汤普逊·尼普斯 14 汤普逊·CVPR 15

评论评级预测:一种综合方法

原文：https://towardsdatascience.com/review-rating-prediction-a-combined-approach-538c617c495c?source=collection_archive---------7-----------------------

结合评论文本内容和用户相似度矩阵来获取更多信息并改进评论评分预测

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Source: pixabay

开始

电子商务的兴起使顾客评论的重要性大大提高。网上有数百个评论网站，每种产品都有大量的评论。顾客已经改变了他们的购物方式，根据最近的调查，70%的顾客说他们使用评级过滤器过滤掉搜索中评级较低的商品。

对于支持这些评论的公司，如谷歌、亚马逊和 Yelp，成功判断评论是否对其他客户有帮助，从而提高产品曝光率的能力至关重要。。

有两种主要的方法来解决这个问题。第一种是基于评论文本内容分析并使用自然语言处理的原则(NLP 方法)。这种方法缺乏从顾客和商品之间的关系中得出的洞察力。第二个是基于推荐系统，特别是基于协同过滤，并且关注评论者的观点。使用用户的相似性矩阵和应用邻居分析都是该方法的一部分。此方法会忽略来自审查文本内容分析的任何信息。

为了获得更多的信息并提高评论评级的预测，研究人员在 这篇文章 中提出了一个结合评论文本内容和先前用户相似度矩阵分析的框架。然后，他们在两个电影评论数据集上做了一些实验，以检验他们的假设的有效性。他们得到的结果表明，他们的框架确实提高了评论评级的预测。这篇文章将描述我试图通过亚马逊评论数据集中的例子来跟踪他们的研究工作。记录这项工作的笔记本可以在这里获得，我鼓励在你的计算机上运行代码并报告结果。

数据

这里使用的数据集是由 UCSD 的 Julian McAuley 博士提供的。它包含亚马逊的产品评论和元数据，包括 1996 年 5 月至 2014 年 7 月期间的 1.428 亿条评论。产品评论数据集包含用户 ID、产品 ID、评级、有用性投票和每个评论的评论文本。
这里的数据可以找到。****

假设

在这项工作中，我的目标是检查研究人员的论文。它不是为这个问题找到最好的模型。我将试图证明，将以前已知的关于每个用户与其他用户相似性的数据与评论文本本身的情感分析相结合，将有助于我们改进用户评论将获得什么评级的模型预测。

Source: pixabay

工作流程

首先，我将根据 RTC 分析执行 RRP。下一步将应用邻居分析来基于用户之间的相似性执行 RRP。最后一步将比较三种方法(基于 RTC 的 RRP、基于邻居分析的 RRP 以及两者的组合)并检查假设。

预处理

预处理在任何分析中都是一个关键步骤，在这个项目中也是如此。
主表的表头如下:

The head of the primary table

首先，我删除了没有评论文本的行、重复的行和我不会用到的额外的列。
第二步是创建一个列，其中包含有用分子和有用分母相除的结果，然后将这些值分割到各个箱中。它看起来像这样:

****reviews_df = reviews_df[~pd.isnull(reviews_df['reviewText'])]
reviews_df.drop_duplicates(subset=['reviewerID', 'asin', 'unixReviewTime'], inplace=**True**)
reviews_df.drop('Unnamed: 0', axis=1, inplace=**True**)
reviews_df.reset_index(inplace=**True**)

reviews_df['helpful_numerator'] = reviews_df['helpful'].apply(**lambda** x: eval(x)[0])
reviews_df['helpful_denominator'] = reviews_df['helpful'].apply(**lambda** x: eval(x)[1])
reviews_df['helpful%'] = np.where(reviews_df['helpful_denominator'] > 0,
                                  reviews_df['helpful_numerator'] / reviews_df['helpful_denominator'], -1)

reviews_df['helpfulness_range'] = pd.cut(x=reviews_df['helpful%'], bins=[-1, 0, 0.2, 0.4, 0.6, 0.8, 1.0],
                                         labels=['empty', '1', '2', '3', '4', '5'], include_lowest=**True**)****

最后一步是创建一个文本处理器，从杂乱的评论文本中提取有意义的单词。

****def text_process(reviewText):
    nopunc = [i for i in reviewText if i not in string.punctuation]
    nopunc = nopunc.lower()
    nopunc_text = ''.join(nopunc)
    return [i for i in nopunc_text.split() if i not in stopwords.words('english')]****

在被应用之后，这个 had -
1。删除了标点符号
2。转换成小写
3。移除了停用字词(在训练模型的上下文中不相关的字词)

一看数据

经过所有预处理后，主表的表头如下所示:

下图显示了用户乐于助人的范围在产品评级中的分布情况:

Heatmap

Barplot

人们很容易看出对高收视率的偏好。这种现象是众所周知的，这也在上面的 同一调查 中得到支持。根据这项调查:

“点评正越来越多地从消费者表达不满的地方，转变为在获得积极体验后推荐商品的地方”。

稍后，我将解释倾斜数据的问题是如何解决的(重采样方法)。

第一步:基于审核文本内容的 RRP

车型

为了检查和选择最佳模型，我构建了一个管道，它执行以下步骤。流水线将首先执行 TF-IDF 项加权和矢量化，然后运行分类算法。一般来说，TF-IDF 将使用我上面的“text_process”函数处理文本，然后将处理后的文本转换为计数向量。然后，它会应用一种计算方法，对更重要的单词赋予更高的权重。

**pipeline = Pipeline([
    ('Tf-Idf', TfidfVectorizer(ngram_range=(1,2), analyzer=text_process)),
    ('classifier', MultinomialNB())
])
X = reviews_df['reviewText']
y = reviews_df['helpfulness_range']
review_train, review_test, label_train, label_test = train_test_split(X, y, test_size=0.5)
pipeline.fit(review_train, label_train)
pip_pred = pipeline.predict(review_test)
print(metrics.classification_report(label_test, pip_pred))**

注意，我选择了 ngram_range = (1，2 ),算法是多项式朴素贝叶斯。这些决定是根据交叉验证测试的结果做出的。我所做的交叉验证测试超出了本文的范围，但是您可以在笔记本中找到它。
检查的车型有:
1。多项逻辑回归，作为基准
2。多项式朴素贝叶斯
3。决策树
4。随机森林

多项朴素贝叶斯给出了最好的准确度分数(0.61)，因此选择它做出的预测来表示基于 RTC 的 RRP。

这一步的最后一部分是将所选模型做出的预测导出到 csv 文件中:

**rev_test_pred_NB_df = pd.DataFrame(data={'review_test': review_test2, 'prediction': pip_pred2})
rev_test_pred_NB_df.to_csv('rev_test_pred_NB_df.csv')**

第二步:基于用户相似度的 RRP

预处理

在这一步中，用户相似性矩阵被构建，并且是我将计算每个用户之间的余弦相似性的基础。当我使用项目的名称构造矩阵时，出现了一些问题，但是通过转换为唯一的整数序列(与 SQL 中的 IDENTITY 属性相同)解决了这些问题。

**temp_df = pd.DataFrame(np.unique(reviewers_rating_df['reviewerID']), columns=['unique_ID'])
temp_df['unique_asin'] = pd.Series(np.unique(reviewers_rating_df['asin']))
temp_df['unique_ID_int'] = range(20000, 35998)
temp_df['unique_asin_int'] = range(1, 15999)reviewers_rating_df = pd.merge(reviewers_rating_df, temp_df.drop(['unique_asin', 'unique_asin_int'], axis=1), left_on='reviewerID', right_on='unique_ID')reviewers_rating_df = pd.merge(reviewers_rating_df, temp_df.drop(['unique_ID', 'unique_ID_int'], axis=1),left_on='asin', right_on='unique_asin')reviewers_rating_df['overall_rating'] = reviewers_rating_df['overall']
id_asin_helpfulness_df = reviewers_rating_df[['reviewerID', 'unique_ID_int', 'helpfulness_range']].copy()# Delete the not in use columns:
reviewers_rating_df.drop(['asin', 'unique_asin', 'reviewerID', 'unique_ID', 'overall', 'helpfulness_range'], axis=1, inplace=True)**

构建矩阵:为了节省处理时间，我使用 pivot 将数据转换成合适的形状，然后使用“csr_matrix”将其转换成稀疏矩阵。

**matrix = reviewers_rating_df.pivot(index='unique_ID_int', columns='unique_asin_int', values='overall_rating')
matrix = matrix.fillna(0)
user_item_matrix = sparse.csr_matrix(matrix.values)**

KNN 车型

我使用了 K-最近邻算法来进行邻居分析。KNN 模式易于实施和解释。相似性度量是余弦相似性，并且期望的邻居的数量是 10。

**model_knn = neighbors.NearestNeighbors(metric='cosine', algorithm='brute', n_neighbors=10)
model_knn.fit(user_item_matrix)**

在训练阶段之后，我提取了邻居列表，并将其存储为一个 NumPy 数组。这产生了一个用户和与他们最相似的 10 个用户的二维数组。

**neighbors = np.asarray(model_knn.kneighbors(user_item_matrix, return_distance=False))**

下一步是获取 10 个最近的邻居，并将它们存储在数据帧中:

**unique_id = []
k_neigh = []
for i in range(15998):
    unique_id.append(i + 20000)
    k_neigh.append(list(neighbors[i][1:10])) #Grabbing the ten closest neighborsneighbors_df = pd.DataFrame(data={'unique_ID_int': unique_id,
                                  'k_neigh': k_neigh})id_asin_helpfulness_df = pd.merge(id_asin_helpfulness_df, neighbors_df, on='unique_ID_int')
id_asin_helpfulness_df['neigh_based_helpf'] = id_asin_helpfulness_df['unique_ID_int']**

最后，为了计算十个最接近的评论者写的评论的平均分，我编写了一个嵌套循环来遍历每一行。然后，循环将遍历用户的十个邻居，并计算他们的评论的平均得分。

**for index, row in id_asin_helpfulness_df.iterrows():
    row = row['k_neigh']
    lista = []
    for i in row:
        p = id_asin_helpfulness_df.loc[i]['helpfulness_range']
        lista.append(p)
    id_asin_helpfulness_df.loc[index, 'neigh_based_helpf'] = np.nanmean(lista)**

第三步:组合

Photo by ALAN DE LA CRUZ on Unsplash

第三步，我导出了上面计算的结果，并将它们与所选模型的预测合并。然后，我有一个由四列组成的文件:
1)原始评论
2)他们得到的分数(地面真相)
3)第一步的预测(NLP 方法)
4)第二步的预测(用户相似性方法)
这两种方法的结合可以用许多不同的方式来完成。在本文中，我选择了简单的算术平均值，但其他方法也可以。除了上面的四列，我现在有了第五列:
5)列 3)和 4)中每一行的算术平均值

最后一步:报告

用于比较模型的度量是均方根误差(RMSE)。这是一个非常常见和良好的比较模型的措施。此外，我选择提出平均绝对误差(MAE ),因为它使用与测量数据相同的尺度，因此可以很容易地解释。结果如下所示:

**RMSE for neigh_based_helpf: 1.0338002581383618
RMSE for NBprediction: 1.074619472976386
RMSE for the combination of the two methods: 0.9920521481819871
MAE for the combined prediction: 0.6618020568763793**

组合方法的 RMSE 低于每种单独方法的 RMSE。

结论

总之，我的论文被证明是正确的。将关于每个用户与其他用户的相似性的先前已知数据与评论文本本身的情感分析相结合，确实有助于改进对用户评论将获得的评分的模型预测

本文的目标是比较这些方法，看看研究人员提供的框架是否会提高预测的准确性。这不是为了找到基于 RTC 的最准确的 RRP 模型。

虽然 MAE 为 0.66 并不好，但这项工作的主要目的是检验假设，而不一定是寻求最佳的 RRP 模型。

综述:RefineNet——多路径细化网络(语义分段)

原文：https://towardsdatascience.com/review-refinenet-multi-path-refinement-network-semantic-segmentation-5763d9da47c1?source=collection_archive---------15-----------------------

在七个数据集上优于 FCN、DeconvNet、SegNet、CRF-RNN、DilatedNet、DeepLab-v1、DeepLab-v2

在这个故事中，由阿德莱德大学和澳大利亚机器人视觉中心开发的refinent被评论。通用多路径细化网络，明确利用下采样过程中的所有可用信息，使用长距离残差连接实现高分辨率预测。捕捉高级语义特征的更深层次可以使用来自早期卷积的细粒度特征直接细化。还引入了链式剩余池，它以高效的方式捕获丰富的背景上下文。这是一篇 2017 CVPR 论文，引用 400 多次。( Sik-Ho Tsang @中)

概述

问题之ResNet和散瞳卷积
RefineNet
消融研究
与最先进方法的比较

1。ResNet 和扩张卷积的问题

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(a) ResNet (b) Dilated (Atrous) Convolution

(a)ResNet:It遭遇特征图的降尺度，不利于语义分割。
(b)扩张(阿特鲁)卷积:在深度实验室和扩张网中介绍。虽然它有助于保持输出特征图的分辨率更大，但 atrous 过滤器训练的计算成本很高，甚至在现代 GPU 上也很快达到内存限制。

2. RefineNet

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(a) Overall Architecture, (b) RCU, © Fusion, (d) Chained Residual Pooling

(a) :图的左上方，是 ResNet 主干。沿着 ResNet ，不同分辨率的特征地图经过残差 Conv 单元(RCU)。使用预激活 ResNet 。
(b) RCU :使用剩余块，但去除了批量归一化。
©融合:然后多分辨率融合被用于使用逐元素求和来合并特征图。
(d)链式残差池:通过残差连接求和，将所有池块的输出特征图与输入特征图融合在一起。它的目的是从一个大的图像区域中捕获背景上下文。
(a)输出 Conv :在图的右边，最后，另一个 RCU 被放置在这里，以在多路径融合的特征图上使用非线性操作来生成用于进一步处理或用于最终预测的特征。

3.消融研究

3.1.主干、链式剩余汇集和多尺度评估

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Backbones, Chained Residual Pooling, and Multi-Scale Evaluation

借助更深入的 ResNet-152 、链式剩余池和测试时多尺度评估，两个数据集一致地获得了更高的 IoU。

3.2.不同的 RefineNet 变体

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Different RefineNet Variants

(a)单个 RefineNet 模型:它从 ResNet 的四个模块中获取所有四个输入，并在单个过程中融合所有分辨率的特征图。
(b) 2 级 RefineNet :仅采用两个 RefineNet 模块，而不是四个。底部的一个 RefineNet-2 有来自 ResNet 模块 3 和 4 的两个输入，另一个有三个输入，两个来自剩余的 ResNet 模块，一个来自 RefineNet-2。
© 4 级级联 2 尺度细化:图像的 2 个尺度作为输入，分别用 2 个resnet生成特征图。输入图像被缩放到 1.2 和 0.6 倍，并被送入两个独立的结果网。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Different RefineNet Variants

由于网络容量更大，4 级联 2 级 RefineNet 具有最佳结果，但它也导致训练时间更长。
因此， 4 级联 RefineNet 用于与最先进的方法进行比较。

4.与最先进方法的比较

4.1.人物角色

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Person-Part

人体部分数据集提供了六个人体部分的像素级标签，包括头部、躯干、上臂/下臂和上/小腿。剩下的都是背景。
有 1717 幅训练图像和 1818 幅测试图像。
RefineNet 大幅度超过deep lab v1&deep lab v2。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Some Examples

4.2.NYUD-v2

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

NYUD-v2

它由 1449 幅显示室内场景的 RGB-D 图像组成，共有 40 个类别。
使用具有 795 和 654 个图像的标准训练/测试分割。
在不使用深度信息进行训练的情况下，RefineNet 优于 FCN-32s 。

4.3.帕斯卡 VOC 2012

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

PASCAL VOC 2012 Test Set

它包括 20 个对象类别和一个背景类。
它被分成训练集、验证集和测试集，每个都有 1464、1449 和 1456 个图像。
尝试了在deep lab v1&deep lab v2中用于进一步细化的条件随机场(CRF)方法，但在验证集上仅有 0.1%的边际改善。因此，通用报告格式不用于 RefineNet。
明显优于 FCN-8s 、德孔内、 CRF-RNN 和DeepLabv1&DeepLabv2。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Some Examples

4.4.城市景观

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Cityscapes Test Set

这是一个来自 50 个不同欧洲城市的街景图像数据集。该数据集提供了道路、汽车、行人、自行车、天空等的细粒度像素级注释。
所提供的训练集具有 2975 幅图像，而验证集具有 500 幅图像。
考虑对 19 个班级进行培训和评估。
同样，RefineNet 的表现优于 FCN-8s 、去配置网和深度实验室 v1 &深度实验室 v2 ，以及扩展网。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Some Examples

4.5.PASCAL 上下文

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

PASCAL-Context

它为 PASCAL VOC 图像提供了整个场景的分割标签，共有 60 类(1 为背景)。
训练集包含 4998 幅图像，测试集包含 5105 幅图像。
同样，RefineNet 的表现优于 FCN-8s 和 DeepLabv2 。

4.6.太阳-RGBD

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SUN-RGBD

它包含大约 10，000 幅 RGB-D 室内图像，并为 37 个类别提供像素标记遮罩。
在不使用深度信息进行训练的情况下，RefineNet 仍然是所有方法中最好的。

4.7.ADE20K MIT

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ADE20K dataset (150 classes) val set.

这是一个场景解析数据集，在超过 20K 个场景图像上提供了 150 个类别的密集标签。
这些类别包括各种各样的对象(例如，人、汽车等。)和东西(如天空、道路等。).所提供的由 2000 幅图像组成的验证集用于定量评估。
还是那句话，RefineNet 比 FCN-8s 、 SegNet 和 DilatedNet ，甚至是 SegNet 和 DilatedNet 的级联版。

参考

【2017 CVPR】【RefineNet】
RefineNet:用于高分辨率语义分割的多路径细化网络

我以前的评论

)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(去)(。 )(他)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(呢)(?)(她)(们)(都)(不)(在)(这)(些)(情)(况)(下)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(吗)(?)(她)(们)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(没)(有)(什)(么)(好)(的)(情)(情)(感)(。

物体检测 过食 R-CNN 快 R-CNN 快 R-CNN MR-CNN&S-CNN DeepID-Net CRAFT R-FCN】 [TDM][SSD][DSSD][yolo v1][yolo v2/yolo 9000][yolo v3][FPN][retina net[DCN]

语义切分 FCN de convnet deeplab v1&deeplab v2 CRF-RNN】SegNet】parse net dilated net PSPNet deeplab v3

生物医学图像分割 [cumed vision 1][cumed vision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet][多通道[V-Net][3D U-Net]

实例分割 [SDS[超列 ] [ 深度掩码 ] [ 锐度掩码 ] [ 多路径网络][MNC][Instance fcn][FCIS

超分辨率 [Sr CNN][fsr CNN][VDSR][ESPCN][红网][DRCN][DRRN][LapSRN&MS-LapSRN][srdensenenet

人体姿态估计
深度姿态汤普逊·尼普斯 14

综述:剩余注意网络——注意感知特征(图像分类)

原文：https://towardsdatascience.com/review-residual-attention-network-attention-aware-features-image-classification-7ae44c4f4b8?source=collection_archive---------12-----------------------

胜过预激活 ResNet 、 WRN 、盗梦空间 ResNet 、 ResNeXt

在这个故事中，余额宝关注网，由 SenseTime 、清华大学、香港中文大学(CUHK) 、北京邮电大学，进行回顾。多个注意力模块叠加生成注意力感知特征。注意力剩余学习用于非常深的网络。最后，这是一篇 2017 CVPR 论文，引用超过 200 次。( Sik-Ho Tsang @中)

概述

关注网络
注意力剩余学习
软面膜分支
整体架构
消融研究
与最先进方法的比较

1。关注网络

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Residual Attention Network

其中 p 为分割成主干分支和掩膜分支前预处理剩余单元的个数。
t 表示主干分支的剩余单元数**。**
r 表示掩膜分支中相邻池层之间的剩余单元数。
在实验中，除非特别说明， p =1， t =2， r =1。

1.1.掩模分支和主干分支

剩余注意网络中有两个术语:掩蔽分支&主干分支。
主干分支:为特征提取的注意力模块中的上层分支。它们可以是预激活 ResNet 块或其他块。输入 x ，输出 T ( x )。
Mask 分支:采用自下而上自上而下的结构学习同尺寸 mask M ( x )。这个 M ( x )是作为类似高速公路网的控制闸门。
最后，注意模块 H 的输出为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中 i 在空间位置范围内，并且 c 是从 1 到 C 的信道索引。
注意力屏蔽可以在正向推理过程中充当特征选择器。
反向传播期间:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中 θ 为掩膜分支参数， φ 为主干分支参数。
在反向传播期间，它还充当梯度更新过滤器。
因此，这使得注意力模块对噪声标签具有鲁棒性。屏蔽分支可以防止错误的梯度(来自噪声标签)来更新主干参数。
(这有点像【STN】，但目标不同。STN 的目标是变形不变性，而注意网络的目标是生成注意感知特征。并且能够处理更具挑战性的数据集，如 ImageNet，其中图像包含需要建模的杂乱背景、复杂场景和大的外观变化。)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

An Example of Hot Air Balloon Images

如上图所示，在热气球图像中，来自底层的蓝色特征有相应的天空遮罩来消除背景，而来自顶层的部分特征被气球实例遮罩细化。
此外，堆叠网络结构的递增性质可以逐渐细化对复杂图像的注意力。

2.注意力剩余学习

然而，幼稚的注意力学习(NAL) 导致成绩下降。
这是因为掩模范围从 0 到 1 重复产生的点将降低深层特征的价值。
另外，软掩码可能会破坏主干分支的良好属性，例如来自预激活 ResNet 的剩余单元的相同映射。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如上构造一个更好的面具，叫做注意剩余学习(ARL) 。
F ( x )为原始特征， M ( x )范围为[0，1]。
因此，ARL 可以保持原有特色的良好属性。
堆叠的注意力模块可以如上图所示逐渐细化特征图。随着深度的增加，特征变得更加清晰。

3.软掩膜分支

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Soft Mask Branch

使用了自下而上自上而下的完全卷积结构。
执行多次最大汇集，以在少量剩余单位后快速增加感受野。
然后，通过对称的自顶向下架构扩展全局信息，以引导每个位置的输入特征。
线性插值在一些剩余单元之后对输出进行上采样。
然后，sigmoid 层在两次 1×1 卷积后对输出进行归一化。

4。整体架构

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Overall Architecture

该网络由 3 级组成，类似于预激活 ResNet ，每级堆叠相同数量的注意模块。
此外，在每个阶段添加两个剩余单元。
主干分支的加权层数为 36 m +20 其中 m 为一个阶段的关注模块数。

5.消融研究

5.1.软遮罩分支中的激活功能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Test Error (%) on CIFAR-10 of Attention-56

除了 Sigmoid，其他类型的激活功能如上所述使用 CIFAR-10 和 56 重量层进行测试注意-56。
乙状结肠是上面三个中最好的。

5.2.朴素注意学习(NAL) vs 注意剩余学习(ARL)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Test Error on CIFAR-10

用 m = {1，2，3，4}。分别导致关注度-56(以主干层深度命名)、关注度-92、关注度-128、关注度-164。
ARL 的表现一直优于 NAL。
随着注意模块数量的增加，NAL 出现了明显的退化。
在 RAL，当应用注意剩余学习时，性能随着注意模块的数量而增加。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Mean Absolute Response Value Using Attention-164

使用 Attention-164 测量每个阶段的输出层的平均绝对响应值。
NAL 在第二阶段 4 个注意力模块后迅速消失。
ARL 可以在抑制噪声的同时保留有用的信息，使用相同的映射减轻信号衰减。它从降噪中获益，而没有显著的信息损失。

5.3.不同的掩模结构

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Test Error on CIFAR-10

局部卷积:没有编码器和解码器结构，只有卷积。
编解码器:误差更小，得益于多尺度信息。

5.4.噪声标签鲁棒性

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

具有 r 的混淆矩阵，干净标签比率，用于整个数据集。
不同的 r ，不同级别的标签噪声注入数据集。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Test Error on CIFAR-10 with Label Noises

即使在高水平噪声数据下训练，ARL 也能表现良好。
当标签有噪声时，该掩模可以防止由标签误差引起的梯度，因为软掩模分支掩盖了错误的标签。

6。与最先进方法的比较

6.1.西法尔-10 和西法尔-100

CIFAR-10 和 CIFAR-100 数据集分别由 10 类和 100 类的 60，000 幅 32×32 彩色图像组成，其中有 50，000 幅训练图像和 10，000 幅测试图像。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Comparisons with State-of-the-art Methods on CIFAR-10/100

Attention-452 由具有超参数设置的注意模块组成:{ p = 2， t = 4， r = 3}和每阶段 6 个注意模块。
在注意模块方面，它优于预激活 ResNet 和 WRN 。
注意-236 仅用一半的参数就胜过ResNet-1001。这意味着注意力模块和注意力剩余学习方案可以有效地减少网络中的参数数量，同时提高分类性能。

6.2.ImageNet

ImageNet LSVRC 2012 数据集包含 1，000 个类，包含 120 万幅训练图像、50，000 幅验证图像和 100，000 幅测试图像。该评估是在 ImageNet LSVRC 2012 验证集的非黑名单图像上进行的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Single Crop Validation Error on ImageNet

与ResNet-152相比， Attention-56 网络的 top-1 错误减少了 0.4%，top-5 错误减少了 0.26%，而只有 52%的参数和 56%的失败。****
并且剩余注意网络使用不同的基本单元可以很好的泛化。有了注意模块，它的表现优于没有注意模块的相应网络。
注意 NeXt-56 网络性能与 ResNeXt-101 相同，而参数和 FLOPs】明显少于 ResNeXt-101 。
AttentionInception-56 的性能优于Inception-ResNet-v1by，前 1 个错误减少了 0.94%，前 5 个错误减少了 0.21%。
关注-92 大幅度胜过ResNet-200。top-1 误差减少 0.6%，而ResNet-200网络比 Attention-92 多包含 32%的参数。
另外，注意力网络比ResNet-200减少了将近一半的训练时间。

参考

【2017 CVPR】【剩余注意力网络】
用于图像分类的剩余注意力网络

我以前的评论

)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(去)(。 )(他)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(呢)(?)(她)(们)(都)(不)(在)(这)(些)(情)(况)(下)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(吗)(?)(她)(们)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(没)(有)(什)(么)(好)(的)(情)(情)(感)(。

物体检测 过食 R-CNN 快 R-CNN 快 R-CNN MR-CNN&S-CNN DeepID-Net CRAFT R-FCN】 [TDM][SSD][DSSD][yolo v1][yolo v2/yolo 9000][yolo v3][FPN][retina net[DCN]

语义切分 FCN de convnet deeplabv 1&deeplabv 2 CRF-RNN】SegNet】parse net dilated net DRN RefineNet

生物医学图像分割 [ 累计视觉 1 ] [ 累计视觉 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet][多通道][V-Net][3D U-Net]

实例分割 [SDS][Hypercolumn][deep mask][sharp mask][multipath net][MNC][Instance fcn[FCIS]

【DeepPose】【汤普森 NIPS’14】【汤普森 CVPR’15】

回顾:RetinaNet —焦点丢失(物体检测)

原文：https://towardsdatascience.com/review-retinanet-focal-loss-object-detection-38fba6afabe4?source=collection_archive---------0-----------------------

使用 ResNet+FPN 的具有焦点损失和视网膜网络的一级检测器，超越了两级检测器的准确性，更快的 R-CNN

在这个故事里， RetinaNet ，由脸书艾研究(FAIR) 进行点评。发现在一级检测器中存在极端的前景-背景类别不平衡问题。并且据信这是使一级检测器的性能不如两级检测器的主要原因。

在 RetinaNet(一级检测器)中，通过使用焦点损失，较低的损失是由“容易”的负样本造成的，因此损失集中在“硬”样本上，这提高了预测精度。以【ResNet】+【FPN】为骨干进行特征提取，加上两个特定任务的子网络进行分类和包围盒回归，形成了 RetinaNet ，达到了最先进的性能，优于 更快的 R-CNN 是一篇 2017 ICCV 最佳学生论文奖论文，引用量超过 500 篇。(第一作者宗林逸在 2017 年 ICCV 展示 RetinaNet 时，已经成为谷歌大脑的研究科学家。)( Sik-Ho Tsang @中型)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A Demo of RetinaNet on Parking Lot Entrance Video (https://www.youtube.com/watch?v=51ujDJ-01oc)

Another Demo of RetinaNet on Car Camera Video

概述

一级检测器的类不平衡问题
焦损失
视网膜检测器
消融研究
与最先进方法的比较

1。一级检测器的类别不平衡问题

1.1.两级检测器

在两级检测器中，例如更快的 R-CNN 、第一级，区域建议网络(RPN) 将候选物体位置的数量缩小到一个小的数量(例如 1–2k)，过滤掉大部分背景样本。
在第二阶段，对每个候选对象位置执行分类。采样试探法使用固定的前景与背景比率(1:3)或在线硬示例挖掘(OHEM) 为每个迷你批次选择一小组锚点(例如，256)。
因此，在前景和背景之间有一个可管理的类平衡。

1.2.一级检测器

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Many negative background examples, Few positive foreground examples

一个更大的候选物体位置集合在一幅图像上被有规律地采样(大约 100k 个位置)，这些位置密集地覆盖了空间位置、比例和纵横比。
训练过程仍然由容易分类的背景例子主导。它通常通过引导或硬示例挖掘来解决。但是它们的效率不够高。

1.3.箱子数量比较

YOLOv1 : 98 盒
约洛夫 2 : ~1k
过吃:~ 1–2k
固态硬盘:~ 8–26k
RetinaNet: ~100k 。RetinaNet 可以有大约 100k 个盒子，使用焦点损失解决等级不平衡问题。

2.焦点损失

2.1.交叉熵损失

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上面的等式是二元分类的 CE 损失。 y ∈{ 1}是地面实况类，而 p ∈[0，1]是模型的估计概率。很容易将其扩展到多类情况。为了便于标注，定义了 pt ，ce 改写如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

**当对大量简单的例子求和时，这些小的损失值可以压倒罕见的类。**下面是例子:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Example

让我们以上图为例。如果我们有 100000 个简单的例子(每个 0.1)和 100 个困难的例子(每个 2.3)。当我们需要求和来估算 CE 损失时。
简单例子的损失= 100000×0.1 = 10000
硬例损失= 100×2.3 = 230
10000 / 230 = 43.从简单的例子来看，损失大约大 40 倍。
因此，当存在极端的阶级不平衡时，CE 损失不是一个好的选择。

2.2。 α- 平衡 CE 损失

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为了解决类别不平衡，一种方法是为类别 1 添加加权因子 α ，为类别 1 添加 1 - α 。
α 可以通过逆类频率设置，也可以作为超参数交叉验证设置。
如在两级检测器处看到的，通过选择 1∶3 的前景与背景比率来隐含地实现 α 。

2.3.焦点损失

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

损失函数被重塑为降低简单例子的权重，从而将训练集中在硬负面上。一个调制因子(1- pt )^ γ 被添加到交叉熵损失中，其中 γ 在实验中从[0，5]开始被测试。
FL 有两个属性:

当一个例子被错误分类并且 pt 很小时，调制因子接近 1，并且损失不受影响。当 pt →1 时，该因子变为 0，并且良好分类示例的损失被向下加权。
聚焦参数 γ 平滑地调整简单示例向下加权的速率。当 γ = 0 时，FL 相当于 CE。当 γ 增加时，调制因子的效果同样增加。( γ =2 在实验中效果最好。)

例如，在 γ = 2 的情况下，与 ce 相比，分类为 pt = 0.9 的示例将具有低 100 的损耗，而分类为 pt = 0.968 的示例将具有低 1000 的损耗。这反过来增加了纠正错误分类的例子的重要性。
当 pt ≤ 0.5 且γ = 2 时，损耗最多降低 4 倍。

2.4.FL 的α平衡变体

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上述形式用于实践中的实验，其中将 α 添加到方程中，这产生了比没有 α 的方程略微提高的精度。并使用 sigmoid 激活函数计算 p 导致更大的数值稳定性。
γ :多关注硬例。
α :抵销类实例数的不平衡。

2.5.模型初始化

在训练开始时，为 p 的值设置一个先验π，使得模型对于稀有类的估计 p 较低，例如 0.01 ，以提高严重类不平衡情况下的训练稳定性。
发现训练 RetinaNet 使用标准 CE 损耗而没有使用先验π 进行初始化，导致网络在训练时发散，最终失败。
并且结果对π的精确值不敏感。π = 0.01 用于所有实验。

3.视网膜网探测器

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

RetinaNet Detector Architecture

3.1.(a)和(b)主干

ResNet 用于深度特征提取。
特征金字塔网络(FPN) 在 ResNet 之上使用，用于从一个单一分辨率输入图像构建丰富的多尺度特征金字塔。(最初， FPN 是一个两级探测器，具有最先进的结果。如果有兴趣，请阅读我关于 FPN 的评论。)
FPN 是多尺度的，在所有尺度上语义都很强，并且计算速度很快。
这里有一些对 FPN 的适度改变。从 P3 到 P7 生成一个金字塔。一些主要的变化是:由于计算的原因，现在不使用 P2。(ii)通过步长卷积而不是下采样来计算 P6。(iii)额外包括 P7 以提高大物体检测的精度。

3.2.锚

主播分别在从 P3 到 P7 的金字塔等级上有 32 到 512 的区域。
使用三种长宽比{1:2，1:1，2:1} 。
对于更密集的规模覆盖，在每个金字塔等级添加**大小为{2⁰、2^(1/3、**的锚。
总共，每级 9 个锚。
跨等级，比例覆盖从 32 到 813 像素。
每个锚，都有一个长度 K 一个分类目标的热向量 (K:类数)一个盒回归目标的 4 向量。
使用 IoU 阈值 0.5 将锚点分配给地面实况对象框，如果 IoU 在[0，0.4】中，则将其分配给背景。每个锚点最多被分配一个对象框，并在那个 K one-hot vector 中设置相应的类条目为 1，所有其他条目为 0。如果锚未赋值如果 IoU 在【0.4，0.5】中并且在训练期间被忽略。
长方体回归计算为锚点和指定对象长方体之间的偏移，如果没有指定，则忽略该值。

3.3.©分类子网

这个分类子网为每个 A 锚和 K 物体类别预测在每个空间位置物体存在的概率。
子网是一个 FCN ，它应用了四个 3×3 conv 层，每个层都有 C 滤波器，每个层后面都有 ReLU 激活，后面是一个 3×3 conv 层，有 KA 滤波器。( K 类， A =9 个锚点， C = 256 个过滤器)

3.4.(d)箱式回归子网

该子网是每个金字塔等级的 FCN ,用于回归从每个锚框到附近地面实况对象(如果存在)的偏移。
它与分类子网相同，除了它终止于每个空间位置的 4 A 线性输出。
它是一个类别不可知的包围盒回归器，使用较少的参数，被发现同样有效。

3.5.推理

在阈值检测器置信度为 0.05 之后，网络仅解码来自的每个FPN等级的最多 1k 最高得分预测的框预测。
来自所有级别的顶部预测被合并并且阈值为 0.5 的非最大抑制(NMS)被应用以产生最终检测。

3.6.培养

因此，在训练期间，图像的总聚焦损失被计算为所有 100k 个锚的聚焦损失的总和**，由分配给地面实况框的锚的数量归一化。**
使用 ImageNet1K 预训练的 ResNet-50-FPN 和 ResNet-101-FPN 。

4.消融研究

使用 COCO 数据集。COCO trainval35k 分体用于训练。并且 minival (5k) split 用于验证。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

α for CE loss (Left), γ for FL (Right)

4.1. α为α-平衡 CE 损耗

使用 ResNet-50 。
首先，测试不同α下的α平衡 CE 损耗。
α = 0.75 时，增益为 0.9 AP。

4.2. γ 为 FL

γ=0 是α平衡的 CE 损耗。
当γ增加时，简单的例子会被贴现到损失中。
γ=2，α=0.25，比α平衡 CE 损耗(α=0.75)提高了 2.9 AP。
据观察，较低的α选择较高的γ
改变的好处要大得多，事实上，最佳α的范围仅为[0.25，0.75]，α∈[:01；:999]已测试。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Cumulative distribution functions of the normalized loss for positive and negative samples

4.3.前景和背景样本分析

前景样本

对从最低到最高的损失进行排序，并绘制正负样本和不同γ设置的累积分布函数(CDF)。
大约 20%的最难阳性样本占阳性损失的大约一半。
随着γ的增加，更多的损失集中在前 20%的例子中，但是影响很小。

背景样本

随着γ的增加，更多的重量集中在硬反例上。
绝大多数损失来自一小部分样本。
FL 可以有效地降低容易否定的影响，将所有注意力集中在难否定的例子上。

4.4.锚密度

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Different Number of Scales (#sc) and Aspect Ratios (#ar)

使用一个方形锚(#sc=1，#ar=1)实现了 30.3%的 AP，这还不错。
使用 3 个尺度和 3 个长宽比，AP 可以提高近 4 个点(34.0)。
增加超过 6-9 个锚不会显示进一步的收益。

4.5.佛罗里达州对 OHEM(在线硬示例挖掘)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

FL vs OHEM (Online Hard Example Mining)

这里使用 ResNet-101 。
在 OHEM，每个示例根据其损失评分，然后应用非最大抑制(NMS ),并使用最高损失示例构建一个小批次。
像焦点损失一样，OHEM 更加强调错误分类的例子。
但是与 FL 不同，OHEM 完全抛弃了简单的例子。
在将 nms 应用于所有示例后，构建迷你批处理以强制正负比例为 1:3。
OHEM 的最佳设置(比例不为 1:3，批量为 128，NMS 为 0.5)达到 32.8%的 AP。
而 FL 获得 36.0% AP，即差距 3.2 AP，证明了 FL 的有效性。
注:作者还测试了铰链损耗，其中损耗在 pt 的某个值以上设置为 0。但是，训练是不稳定的。

5。与最先进方法的比较

5.1.速度与精度的权衡

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Speed versus Accuracy

retina net-101–600:retina net 配有 ResNet-101-FPN 和 600 像素的图像比例，与最近发布的 ResNet-101-FPN 更快的 R-CNN (FPN) 的精确度相当，同时每张图像的运行时间为 122 毫秒，而不是 172 毫秒(均在 Nvidia M40 GPU 上测量)。
更大的主干网络产生更高的准确性，但也降低了推理速度。
培训时间从 10 小时到 35 小时不等。
使用更大的规模允许 RetinaNet 超越所有两阶段方法的准确性，同时仍然更快。
除了 YOLOv2 (目标是极高的帧率)，RetinaNet 的表现优于 SSD 、 DSSD 、 R-FCN 和 FPN 。
对于更快的运行时间，只有一个工作点(500 像素输入)，在这个点上使用 ResNet-50-FPN 的 RetinaNet 比使用 ResNet-101-FPN 的 retina net 有所改进。

5.2.最先进的精确度

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Object detection single-model results (bounding box AP), vs. state-of-the-art on COCO test-dev

RetinaNet 使用ResNet-101-FPN:retina net-101–800模型使用比例抖动训练，比表(5.1)中的模型长 1.5 倍。
与现有的单级检测器相比，它与最接近的竞争对手 DSSD 的 AP 差距为 5.9 点(39.1 对 33.2)。
与最近的两阶段方法相比，RetinaNet 比基于Inception-ResNet-v2-TDM的表现最好的更快的 R-CNN 模型高出 2.3 个点。(如果有兴趣，请阅读我关于 Inception-ResNet-v2 和 TDM 的评测。)
RetinaNet 使用ResNeXt-101-FPN:插上ResNeXt-32x8d-101-FPN【38】作为 RetinaNet 主干，成绩再提升 1.7 AP，超过 COCO 上的 40 AP。(如果有兴趣，请阅读我关于 ResNeXt 的评论。)

通过使用焦点损耗，可以在简单样本和困难样本之间自适应地平衡总损耗。

参考

【2017 ICCV】【retina net】
密集物体探测的焦损失

我的相关评论

)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(来)(。 )(我)(们)(都)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(,)(我)(们)(还)(是)(不)(知)(道)(。

物体检测 过食 R-CNN 快 R-CNN 快 R-CNN DeepID-Net】R-FCN】离子多路径网 NoC

语义切分 FCN de convnet deeplab v1&deeplab v2 parse net】dilated net PSP net deeplab v3

生物医学图像分割 [cumed vision 1][cumed vision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet

实例分割
[深度掩码 ] [ 锐度掩码 ] [ 多路径网络 ] [ MNC ] [ 实例中心 ] [ FCIS

超分辨率 Sr CNN fsr CNN VDSR ESPCN 红网】

复习:SegNet(语义分割)

原文：https://towardsdatascience.com/review-segnet-semantic-segmentation-e66f2e30fb96?source=collection_archive---------4-----------------------

编码器解码器架构使用最大池索引进行上采样，性能优于 FCN、DeepLabv1 和 DeconvNet

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SegNet by Authors (https://www.youtube.com/watch?v=CxanE_W46ts)

在这个故事中，剑桥大学的 SegNet 做了简要回顾。最初，它被提交到 2015 年 CVPR，但最终它没有在 CVPR 出版(但它是 2015 arXiv tech report 版本，仍然获得了 100 多次引用)。而是发表在 2017 TPAMI 超过 1800 次引用。而现在第一作者已经成为 Magic Leap Inc .(Sik-Ho Tsang@ Medium)深度学习和 AI 的总监

以下是作者的演示:

SegNet by Authors (https://www.youtube.com/watch?v=CxanE_W46ts)

还有一个有趣的演示，我们可以选择一个随机的图像，甚至上传我们自己的图像来尝试 SegNet。我做了如下尝试:

http://mi.eng.cam.ac.uk/projects/segnet/demo.php

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The segmentation result for a road scene image that I found from internet

概述

编码器解码器架构
与 DeconvNet 和 U-Net 的区别
结果

1。编码器解码器架构

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SegNet: Encoder Decoder Architecture

SegNet 有一个编码器网络和一个相应的解码器网络，后面是最终的逐像素分类层。

1.1.编码器

在编码器处，执行卷积和最大池。
VGG-16 有 13 个卷积层。(原始的完全连接的层被丢弃。)
进行 2×2 最大汇集时，会存储相应的最大汇集索引(位置)。

1.2.解码器

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Upsampling Using Max-Pooling Indices

在解码器处，执行上采样和卷积。最后，每个像素都有一个 softmax 分类器。
在上采样期间，如上所示，调用相应编码器层的最大池索引来进行上采样。
最后，使用 K 类 softmax 分类器来预测每个像素的类别。

2。与 DeconvNet 和 U-Net 的区别

DeconvNet 和 U-Net 的结构与 SegNet 类似。

2.1.与解除配置的区别

使用类似的被称为解组的上采样方法。
然而，存在使模型更大的完全连接的层。

2.2.与 U-Net 的差异

它用于生物医学图像分割。
代替使用汇集索引，整个特征映射从编码器传输到解码器，然后连接以执行卷积。
这使得模型更大，需要更多的内存。

3.结果

尝试了两个数据集。一个是用于道路场景分割的 CamVid 数据集。一个是用于室内场景分割的 SUN RGB-D 数据集。

3.1.用于道路场景分割的 CamVid 数据集

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Compared With Conventional Approaches on CamVid dataset for Road Scene Segmentation

如上所示，SegNet 在许多类上都取得了非常好的结果。它还获得了最高的班级平均水平和全球平均水平。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Compared With Deep Learning Approaches on CamVid dataset for Road Scene Segmentation

SegNet 获得最高的全局平均精度(G)、类平均精度©、mIOU 和边界 F1-measure (BF)。它胜过 FCN 、 DeepLabv1 和 DeconvNet 。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Qualitative Results

3.2.用于室内场景分割的太阳 RGB-D 数据集

仅使用 RGB，不使用深度(D)信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Compared With Deep Learning Approaches on SUN RGB-D Dataset for Indoor Scene Segmentation

同样，SegNet 的表现优于 FCN 、 DeconvNet 和 DeepLabv1 。
SegNet 对于 mIOU 来说只比 DeepLabv1 差了一点点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Class Average Accuracy for Different Classes

大规模班级的精确度更高。
小规模班级的精确度较低。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Qualitative Results

3.3.记忆和推理时间

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Memory and Inference Time

SegNet 比 FCN 和 DeepLabv1 要慢，因为 SegNet 包含解码器架构。而且它比 DeconvNet 更快，因为它没有完全连接的层。
并且 SegNet 在训练和测试期间都具有低的内存需求。而且型号尺寸远小于 FCN 和de convent。

参考

【2015 arXiv】【seg net】
seg net:一种深度卷积编码器-解码器架构，用于鲁棒的语义像素式标记

【2017 TPAMI】【SegNet】
SegNet:一种用于图像分割的深度卷积编解码架构

我以前的评论

)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(们)(还)(不)(想)(到)(这)(些)(人)(们)(,)(我)(们)(们)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(们)(还)(没)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(里)(来)(。 )(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(里)(去)(,)(我)(们)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(里)(去)(了)(,)(我)(们)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(到)(这)(里)(来)(。

物体检测 过食 R-CNN 快 R-CNN 快 R-CNN DeepID-Net】R-FCN】离子多路径网 NoC yolo 9000[yolov 3][FPN][retina net][DCN]

语义切分 FCN de convnet deeplab v1&deeplab v2 parse net】dilated net PSP net deeplab v3

生物医学图像分割 [cumed vision 1][cumed vision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet

实例分割
[深度掩码 ] [ 锐度掩码 ] [ 多路径网络 ] [ MNC ] [ 实例中心 ] [ FCIS

)( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )( )(

综述:SENet —挤压和激励网络，ILSVRC 2017(图像分类)获奖者

原文：https://towardsdatascience.com/review-senet-squeeze-and-excitation-network-winner-of-ilsvrc-2017-image-classification-a887b98b2883?source=collection_archive---------6-----------------------

凭借 SE 积木，超越 ResNet 、盗梦空间-v4 、 PolyNet 、 ResNeXt 、 MobileNetV1 、 DenseNet 、 PyramidNet 、 DPN 、 ShuffleNet V1

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SENet got the first place in ILSVRC 2017 Classification Challenge

在这个故事里，回顾了牛津大学的压缩-激发网络(SENet) 。利用“挤压-激励”(SE)模块**，通过显式模拟通道之间的相互依赖性**，自适应地重新校准通道式特征响应，构建 SENet。并且在 ILSVRC 2017 分类挑战赛中以 2.251%的前 5 名误差获得第一名，相对于 2016 年的获奖参赛作品有大约 25%的提升。而这是一篇在 2018 CVPR 超过 600 次引用的论文。最近还发表在 2019 TPAMI 上。( Sik-Ho Tsang @中)

概述

挤压和激励(SE)块
SE-Inception&SE-ResNet
与最先进方法的比较
分析解释

1。挤压和激励(SE)模块

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Squeeze-and-Excitation (SE) Block

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中 Ftr 是将 X 转换为 U 的卷积算子。
这个 Ftr 可以是残差块或者 Inception 块，后面会更详细的提到。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中 V =[ v 1， v 2，…， v c]为学习后的滤波器核集合。

1.1.挤压:全球信息嵌入

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SE Path, Same as the Upper Path at the Figure Above

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

变换输出 U 可以被解释为局部描述符的集合，其统计表示整个图像。
建议将全局空间信息压缩到通道描述符中。
这是通过使用全局平均池生成渠道统计数据来实现的。

1.2.激发:自适应重新校准

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中，δ是 ReLU 函数。
使用了一个使用 sigmoid 激活σT21的简单浇口机制。
提出了一种激励操作，以便完全捕获通道相关，并且学习通道之间的非线性和非互斥关系。
我们可以看到有 W 1 和 W 2，输入 z 是全局平均池化后的通道描述符，有两个全连接(FC)层。
使用缩减比率r通过维度缩减形成具有两个 FC 层的瓶颈。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

引入的附加参数的数量取决于如上所述的 r 其中 S 指的是级的数量(其中每一级指的是在公共空间维度的特征图上操作的块的集合) Cs 表示输出通道的维度和 Ns 表示

****块的最终输出是通过用激活重新调整变换输出 U 获得的，如上所示。
激活充当适应于输入特定描述符 z 的通道权重。在这方面， SE 模块本质上引入了以输入为条件的动态，有助于提高特征的可辨性。

2。SE-Inception & SE-ResNet

Left: SE-Inception, Right: SE-ResNet

如上图所示，SE 块可以作为 SE-Inception 和 SE-ResNet 轻松添加到 Inception 和 ResNet 块中。
特别是在 SE-ResNet 中，压缩和激发都在同分支求和之前起作用。
更多与 ResNeXt ，Inception-ResNet，mobilenetv 1和shuffle net V1可以按照类似的方案构造。
SE-ResNet-50 和 SE-ResNeXt-50 (32×4d) 更详细的架构如下:

ResNet-50 (Left), SE-ResNet-50 (Middle), SE-ResNeXt-50 (32×4d) (Right)

3.与最先进方法的比较

3.1. ImageNet 验证集的单作物错误率****

Single-Crop Error Rates (%) on ImageNet Validation Set

SE 块被添加到 ResNet 、 ResNeXt 、 VGGNet 、 BN-Inception 和 Inception-ResNet-v2 。对于 VGGNet 来说，为了更容易训练，在每次卷积后增加了批量归一化层。
在训练期间，使用256 个图像的小批量**，通过 ResNet-50 的单次前后传递需要 190 毫秒，相比之下，SE-ResNet-50 的**需要 209 毫秒(这两个计时都是在具有 8 个 NVIDIA Titan X GPU的服务器上执行的)。****
在测试过程中，对于 224 × 224 像素的输入图像，每个型号的 CPU 推断时间:ResNet-50需要 164 ms ，相比之下，SE-ResNet-50 的需要 167 ms。****
值得注意的是， SE-ResNet-50 实现了 6.62%的单作物 top-5 验证误差，超过ResNet-50(7.48%)0.86%****接近更深层次的 ResNet-101 网络实现的性能****
**而 **SE-ResNet-101 (6.07% top-5 误差)不仅匹配，而且跑赢更深层次的ResNet-152网络(6.34% top-5 误差)0.27% 。
**同样， SE-ResNeXt-50 的 top-5 误差为 5.49% ，不仅优于其直接对应的ResNeXt-50(**5.90%top-5 误差)，也优于更深层次的ResNeXt-101(5.57%【T6)
SE-Inception-ResNet-v2(4.79%top-5 error)优于重新实现的Inception-ResNet-v2(5.21%top-5 error)0.42%(相对提高 8.1%)
在一系列不同深度的训练中，性能改进是一致的，这表明 SE 模块带来的改进可以与增加基础架构的深度结合使用。

Single-Crop Error Rates (%) on ImageNet Validation Set

对于轻量级模型， MobileNetV1 和 ShuffleNet V1 ， SE 模块可以在最小的计算成本增加下持续大幅度提高精度。

3.2.ILSVRC 2017 分类竞赛

Single-Crop Error Rates (%) on ImageNet Validation Set

使用了多尺度、多作物和集合。
在测试集上得到 2.251%的 top-5 误差。
在验证集 SENet-154 上，使用 224 × 224 中心作物评估，具有修改的ResNeXt，的 SE 块实现了 18.68%的前 1 误差和 4.47%的前 5 误差。
比 ResNet 、 Inception-v3 、 Inception-v4 、 Inception-ResNet-v2 、 ResNeXt 、 DenseNet 、剩余注意力网络、 PolyNet 、 PyramidNet 、 DPN 。

3.3.场景分类

Single-crop error rates (%) on Places365 validation set

****SE-ResNet-152(11.01%top-5 误差)实现了比ResNet-152(11.61%top-5 误差)更低的验证误差，提供了 SE 块可以在不同数据集上表现良好的证据。
并且 SENet 超过了之前最先进的模型 place 365-CNN，其前 5 名误差为 11.48%。

3.4.COCO 上的对象检测

Object detection results on the COCO 40k validation set by using the basic Faster R-CNN

更快的 R-CNN 用作检测网络。
在 COCO 的标准指标 AP 和 AP@IoU=0.5 上， SE-ResNet-50 比ResNet-50高出 1.3% (相对提高了 5.2%)。
重要的是，在 AP 指标上，SE 模块能够使更深层的架构 ResNet-101 受益 0.7%(相对提高 2.6%)。

4。分析和解释

4.1.减速比 r

Single-Crop Error Rates (%) on ImageNet Validation Set

**r = 16 在准确性和复杂性**之间取得了良好的平衡，因此，该值用于所有实验。

4.2.激励的作用

Activations induced by Excitation in the different modules of SE-ResNet-50 on ImageNet.

对于上述 5 个类别，从验证集中为每个类别抽取 50 个样本，并计算每个阶段中最后 SE 块中 50 个均匀采样的通道的平均激活。
首先，在较低层，例如 SE_2_3，特征信道的重要性可能由网络早期阶段的不同类别共享。
第二，在更大的深度，例如 SE_4_6 和 SE_5_1，每个通道的值变得更加特定于类别，因为不同的类别对特征的区别值表现出不同的偏好。
结果，表示学习受益于由 SE 块引起的重新校准，这在需要的程度上自适应地促进了特征提取和专门化。
最后，最后一级，即 SE_5_2，呈现出一种有趣的趋势趋向饱和状态，其中大部分激活接近 1，其余接近 0。在 SE_5_3 中也发现了类似的模式，只是尺度略有变化。
这表明在向网络提供重新校准时，SE 5 2 和 SE 5 3 没有以前的模块重要。
通过移除最后一级的 SE 模块，可以显著减少总参数数量，而性能损失很小。

SE 模块通过使网络能够执行动态的逐通道特征再校准来提高网络的代表性容量。

参考

【2018 CVPR】【塞内】
压缩-激发网络

【2019 TPAMI】【SENet】
压缩和激励网络

我以前的评论

)(他)(们)(都)(不)(在)(这)(些)(事)(上)(,)(我)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(?)(我)(们)(都)(不)(在)(这)(些)(情)(况)(上)(,)(我)(们)(还)(没)(有)(什)(么)(情)(况)(,)(我)(们)(还)(没)(有)(什)(么)(情)(况)(,)(我)(们)(还)(没)(有)(什)(么)(情)(况)(,)(我)(们)(还)(没)(有)(什)(么)(好)(好)(的)(情)(感)(。 )(他)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(呢)(?)(她)(们)(都)(不)(在)(这)(些)(情)(况)(下)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(吗)(?)(她)(们)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(好)(的)(情)(情)(况)(。 PyramidNet DRN DPN 残留注意网络 MSDNet ShuffleNet V1

物体检测 过食 R-CNN 快 R-CNN 快 R-CNN MR-CNN&S-CNN DeepID-Net CRAFT R-FCN】 [G-RMI][TDM][SSD][DSSD][约洛夫 1 ] [ 约洛夫 2 /约洛 9000 ] [ 约洛夫 3[FPN[视网膜网[DCN

语义切分 FCN de convnet deeplabv 1&deeplabv 2 CRF-RNN】SegNet】parse net dilated net DRN RefineNet

生物医学图像分割 [cumed vision 1][cumed vision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet][多通道][V-Net][3D U-Net][M FCN

实例分割 SDS Hypercolumn DeepMask SharpMask MultiPathNet MNC InstanceFCN FCIS

人体姿态估计
深度姿态汤普逊·尼普斯 14 汤普逊·CVPR 15

综述:抖动正则化(图像分类)

原文：https://towardsdatascience.com/review-shake-shake-regularization-image-classification-d22bb8587953?source=collection_archive---------17-----------------------

在训练过程中给梯度添加噪声的概念，胜过 WRN 、雷斯 NeXt 和登森特。

在这个故事中，来自伦敦商学院的 Xavier Gastaldi 的 Shake-Shake 正则化(Shake-Shake) 被简要回顾。本文的动机是在输入图像上应用数据增强，也可能将数据增强技术应用于内部表示。

在现有技术中发现，在训练期间向梯度添加噪声有助于复杂神经网络的训练和泛化。并且摇动-摇动正则化可以被视为这个概念的扩展，其中梯度噪声被一种形式的梯度增强所取代。这是 2017 ICLR 研讨会上的一篇论文，被引用 10 多次。而 2017 arXiv 中的长版已经获得了 100 次引用。( Sik-Ho Tsang @中)

概述

抖动调整
实验结果
进一步评估

1。抖动调整

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Left: Forward training pass. Center: Backward training pass. Right: At test time.

特别是，本文研究的三分支ResNet如上图所示，方程如下:

通过抖动调整，增加了 α :

α 在测试时间内设置为 0.5，就像 Dropout 一样。

2。实验结果

2.1.CIFAR-10

使用 26 个 2×32d ResNet (即网络深度为 26，2 个剩余分支，第一个剩余块宽度为 32)。
摇动:在通过之前，所有的缩放系数都被新的随机数覆盖。
偶数:所有缩放系数在通过之前都设置为 0.5。
保持:对于后向通道，保持前向通道使用的缩放系数。
批次:对于每个残差块 i ，相同的缩放系数应用于小批次中的所有图像。
图像:对于每个残差块 i ，对小批量中的每个图像应用不同的缩放系数。

Error Rates of CIFAR-10

在向前传球时使用 Shake 有更好的表现。
并且Shake-Shake-Image(S-S-I)对于 26 个 2×64d ResNet 和 26 个 2×96d ResNet 获得最佳结果。

2.2.西发尔-100

Error Rates of CIFAR-100

在向前传球时再次使用摇动可以提高性能。
特别地，抖动平均图像(S-E-I)是最好的。

2.3.与最先进方法的比较

Test error (%) and Model Size on CIFAR

在 CIFAR-10 上，S-S-I 的表现超过了 WRN 、雷斯 NeXt 和登盛内特。
在 CIFAR-100 上，S-E-I 的表现也超过了 WRN 、雷斯 NeXt 和登盛内特。

3.进一步评估

3.1.剩余分支之间的相关性

为了计算相关性，首先转发 mini-batch，通过残差分支 1 和将输出张量存储在 yi (1)中。类似于剩余分支 2，并将其存储在 yi (2)中。
然后将** 夷 (1)和夷 (2)分别展平为 flati (1)和 flati (2)。并且计算 2 个向量中每个对应项之间的协方差。**
计算 flati (1)和 flati (2)的方差。
重复直到测试集中的所有图像。使用得到的协方差和方差计算相关性。

Correlation results on E-E-B and S-S-I models

首先，2 个剩余分支的输出张量之间的相关性似乎通过正则化而降低。这将支持一个假设，即正规化迫使分支机构学习不同的东西。

Layer-wise correlation between the first 3 layers of each residual block

残差块末尾的求和迫使左和右残差分支上的层对齐。
正则化降低了相关性。

3.2.正则化强度

Update Rules for β

Left: Training curves (dark) and test curves (light) of models M1 to M5. Right: Illustration of the different methods in the above Table.

β 离 α 越远，正则化效果越强。

3.3.删除跳过连接/批处理规范化

建筑 A 为 26 2×32d，但没有跳接。
架构 B 与 A 相同，但每个分支只有 1 个卷积层，块数是 A 的两倍。
架构 C 与 A 相同，但没有批处理规范化。

Error Rates of CIFAR-10

架构 A 的结果清楚地表明抖动正则化甚至可以在没有跳跃连接的情况下工作。
架构 B 的结果显示**正则化不再起作用。**
架构 C 使得模型难以收敛，使得模型更加敏感。也很容易使模型发散。

凭借简单而新颖的想法和积极的成果，它在 2017 年 ICLR 研讨会上发表，这非常令人鼓舞。

参考

【2017 arXiv】【摇一摇】
摇一摇正规化

【2017 ICLR 研讨会】【摇一摇】
三分支残差网络的摇一摇正则化

我以前的评论

物体检测 过食 R-CNN 快 R-CNN 快 R-CNN MR-CNN&S-CNN DeepID-Net CRAFT R-FCN】 [G-RMI][TDM][SSD][DSSD][约洛夫 1 ] [ 约洛夫 2 /约洛 9000 ] [ 约洛夫 3[FPN[视网膜网[DCN

语义切分 FCN de convnet deeplabv 1&deeplabv 2 CRF-RNN】SegNet】parse net dilated net DRN RefineNet

生物医学图像分割 [cumed vision 1][cumed vision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet][多通道][V-Net][3D U-Net][M FCN

实例分割 SDS Hypercolumn DeepMask SharpMask MultiPathNet MNC InstanceFCN FCIS

人体姿态估计
深度姿态汤普森·尼普斯 14 汤普森·CVPR 15 CPM]

回顾:shuffle net V1-轻量级模型(图像分类)

原文：https://towardsdatascience.com/review-shufflenet-v1-light-weight-model-image-classification-5b253dfe982f?source=collection_archive---------7-----------------------

通过频道洗牌，性能优于 MobileNetV1

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ShuffleNet, Light Weight Models for Limited Computational Budget Devices such as Drones (https://unsplash.com/photos/DiTiYQx0mh4)

在这个故事里，对旷视科技公司【Face ++】出品的 ShuffleNet V1 进行了简要回顾。ShuffleNet 在数十或数百 MFLOPs 的非常有限的计算预算中追求最佳精度，专注于常见的移动平台，如无人机**、机器人和智能手机。通过混洗频道，ShuffleNet 胜过了 MobileNetV1 。在 ARM 设备中，ShuffleNet 比 AlexNet 实现了 13 倍的实际加速，同时保持了相当的精度。这是一篇 2018 CVPR 的论文，引用超过 300 次。( Sik-Ho Tsang @中)**

概述

群组卷积的信道混洗
洗牌机单元
ShuffleNet 架构
消融研究
与最先进方法的比较

1。群组卷积的信道混洗

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(a) Two Stacked Group Convolutions (GConv1 & GConv2), (b) Shuffle the channels before convolution, © Equivalent implementation of (b)

组卷积用于Alex net和ResNeXt。
(a) :没有通道混洗，每个输出通道只与组内的输入通道相关。这个特性阻断了通道组之间的信息流，削弱了代表性。
(b) :如果我们允许组卷积获得不同组的输入数据，那么输入和输出通道将完全相关。
【c】😦 b)中的操作可以通过信道混洗操作来高效且优雅地实现。假设一个卷积层有 g 个组，其输出有 g × n 个信道；我们先用将输出的通道尺寸整形为( g ， n )，转置，然后将其展平作为下一层的输入。
信道混洗也是可微分的，这意味着它可以嵌入到网络结构中用于端到端训练。

2.洗牌机单元

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(a) bottleneck unit with depthwise convolution (DWConv), (b) ShuffleNet unit with pointwise group convolution (GConv) and channel shuffle, © ShuffleNet unit with stride = 2.

(a)瓶颈单元:这是一个标准的剩余瓶颈单元，但是使用了深度方向卷积。(深度方向卷积用于MobileNetV1)。)使用 1×1 然后 3×3 DW 然后 1×1 卷积，它也可以被视为 MobileNetV2 中使用的深度方向可分离卷积的瓶颈类型。
(b) ShuffleNet 单元:第一个和第二个 1×1 卷积被组卷积替换。在第一个 1×1 卷积之后，应用通道混洗。
给定输入c×h×w和瓶颈通道 m ， ResNet 单元要求HW(2cm+9m)FLOPs 和 ResNeXt 要求 hw (2 cm
换句话说，给定计算预算， ShuffleNet 可以使用更宽的特征地图。我们发现这对小型网络来说至关重要，因为小型网络通常没有足够数量的通道来处理信息。

3。ShuffleNet 架构

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ShuffleNet Architecture

所提出的网络主要由分成三级的一堆洗牌网络单元组成。
对于每个洗牌机单元，瓶颈通道的数量被设置为输出通道的 1/4。
一个比例因子 s 应用于通道的数量。上表中的网络表示为“ShuffleNet 1×”,那么“ShuffleNet s ×”意味着将 ShuffleNet 1×中的滤波器数量缩放了 s 倍，因此总体复杂度将大致为 ShuffleNet 1×的 s 倍。

4。消融研究

使用 ImageNet 2012 分类验证集。

4.1.不同数量的组卷积 g

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Different number of group convolutions g

其中 g = 1，即没有逐点群卷积。
具有组卷积( g > 1)的模型始终比没有点态组卷积( g = 1)的模型表现得更好。
较小的模型往往从群体中获益更多。
例如，对于 ShuffleNet 1 倍的最佳条目( g = 8)比对应条目好 1.2%，而对于 ShuffleNet 0.5 倍和 0.25 倍，差距分别变为 3.5%和 4.4%。
对于某些型号(如 ShuffleNet 0.5×)当**组数变得相对较大(如 g = 8)时，分类得分饱和甚至下降。**随着组号的增加(因此特征映射更宽)，每个卷积滤波器的输入通道变得更少，这可能损害表示能力。

4.2.洗牌还是不洗牌

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Shuffle vs No Shuffle

频道洗牌持续提升不同设置的分类分数，这显示了跨组信息交换的重要性。

5。与最先进方法的比较

5.1.与其他结构单元的比较

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Comparison with Other Structure Units

VGGNet 、 ResNet 、exception和 ResNeXt 没有完全探索低复杂度条件。
为了公平比较，在上表中，具有其他结构的阶段 2-4 中的洗牌网络单元被其他网络的单元替换，然后调整通道的数量以确保复杂度保持不变。
在不同的复杂性下，ShuffleNet 模型的表现远远超过大多数其他模型。
例如，在 38 MFLOPs 的复杂度下，类 VGG 、 ResNet 、 ResNeXt 、exception类 ShuffleNet 模型的阶段 4(见表 1)的输出通道分别为 50、192、192、288、576，这与精度的提高是一致的。
由于需要调整的超参数太多，GoogLeNet 或 Inception 系列不包括在内。
另一个名为 PVANET 的轻量级网络结构的分类误差为 29.7%，计算复杂度为 557 MFLOPs，而我们的 shuffle net 2×model(g= 3)的分类误差为 26.3%，计算复杂度为 524 MFLOPs。

5.2.与 MobileNetV1 的比较

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Comparison with MobileNetV1

ShuffleNet 模型在所有复杂性方面都优于 MobileNetV1 。
虽然 ShuffleNet 网络是专门为小模型设计的(< 150 MFLOPs), it is still better than MobileNetV1 计算成本较高，例如比 MobileNetV1 高 3.1%的精度，成本为 500 MFLOPs。
简单的架构设计也使得为 ShuffeNets 配备最新技术变得容易，例如挤压和激励(SE)模块。(希望以后可以复习 SENet。)
具有 SE 模块的 ShuffleNet 将 shuffle net 的 top-1 误差提高了 2 倍至 24.7%，但通常比移动设备上的“原始”shuffle net 慢 25%至 40%，这意味着实际加速评估对低成本架构设计至关重要。

5.3.与其他模型的比较

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Comparison with Other Models

在准确率差不多的情况下，ShuffleNet 比 VGGNet 、 GoogLeNet 、 AlexNet 和 SqueezeNet 效率要高得多。

5.4.概括能力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Object detection results on MS COCO

这里，COCO minival 女士的图像用于测试。
使用更快的 R-CNN 作为检测框架。
将 ShuffleNet 2×与复杂度相当(524 对 569 MFLOPs)的 MobileNetV1 进行比较，我们的 ShuffleNet 2×在两种分辨率上都远远超过 MobileNetV1 。
ShuffleNet 1×在 600×分辨率上也获得了与 MobileNet 相当的结果，但复杂度降低了约 4 倍。
作者推测这种显著的收益部分是由于 ShuffleNet 的简单的架构设计。

5.5.实际加速评估

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Actual Speedup Evaluation on ARM device

经验上 g = 3 通常在准确性和实际推断时间之间有一个适当的权衡。
由于内存访问和其他开销，我们发现在我们的实现中，每 4 倍的理论复杂度降低通常会导致 2.6 倍的实际加速。
与 AlexNet 相比，ShuffleNet 0.5×模型在分类精度相当的情况下仍然实现了~13×的实际加速比(理论加速比 18×)。

希望我能在未来的日子里回顾 V2 沙狐球网。😃

参考

【2018 CVPR】【shuffle net V1】
shuffle net:一种针对移动设备的极其高效的卷积神经网络

我以前的评论

物体检测 过食 R-CNN 快 R-CNN 快 R-CNN MR-CNN&S-CNN DeepID-Net CRAFT R-FCN】 [G-RMI][TDM][SSD][DSSD][约洛夫 1 ] [ 约洛夫 2 /约洛 9000 ] [ 约洛夫 3[FPN[视网膜网[DCN

语义切分 FCN de convnet deeplabv 1&deeplabv 2 CRF-RNN】SegNet】parse net dilated net DRN RefineNet

生物医学图像分割 [cumed vision 1][cumed vision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet][多通道][V-Net][3D U-Net][M FCN

实例分割 [ SDS ] [ 超列 ] [ 深度掩码 ] [ 锐度掩码 ] [ 多路径网络 ] [ MNC ] [ 实例中心 ] [ FCIS

【DeepPose】【汤普森 NIPS’14】【汤普森 CVPR’15】

回顾:挤压网(图像分类)

原文：https://towardsdatascience.com/review-squeezenet-image-classification-e7414825581a?source=collection_archive---------4-----------------------

AlexNet 级精度，参数减少 50 倍

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Jason Blackeye @jeisblack (Unsplash)

在这个故事里， SqueezeNet ，由 DeepScale 、 UC Berkeley 和 Stanford University 进行回顾。在精度相当的情况下，较小的 CNN 架构至少有三个优势

较小的卷积神经网络(CNN)在分布式训练中需要较少的跨服务器通信。
更小的 CNN 需要更少的带宽来从云端向自动驾驶汽车输出新的模型。
较小的 CNN 更适合部署在 FPGAs 和其他内存有限的硬件上。

这是 2016 年关于 arXiv 的技术报告，引用超过 1100 次。( Sik-Ho Tsang @中)

概述

建筑设计策略
消防模块
SqueezeNet 架构
对 SqueezeNet 的评估

1。建筑设计策略

策略一。用 1×1 过滤器替换 3×3 过滤器

给定一定数量卷积滤波器的预算，我们可以选择将大多数滤波器设为 1×1，，因为 1×1 滤波器的参数比 3×3 滤波器少 9 倍。

策略二。将输入通道的数量减少到 3 个×3 个滤波器

考虑一个完全由 3 个×3 个滤镜组成的卷积层。该层中的参数总数为:
(输入通道数) × (滤波器数) × (3 × 3)
我们可以使用挤压层将输入通道的数量减少到 3×3 滤波器，这将在下一节中提到。

策略三。在网络后期进行下采样，以便卷积图层具有较大的激活图

直觉是大的激活图(由于延迟的下采样)可以导致更高的分类精度。

摘要

策略 1 和 2 是关于明智地减少 CNN 中的参数数量，同时试图保持准确性。
策略 3 是在有限的参数预算下最大限度地提高精度。

2。消防模块

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fire Module with hyperparameters: s1x1 = 3, e1x1 = 4, and e3x3 = 4

Fire 模块包括:一个挤压卷积层(只有 1×1 个滤波器)，进入一个扩展层，该层混合了 1×1 和 3×3 个卷积滤波器。
Fire 模块中有三个可调维度(超参数):s1×1、e1×1 和 e3×3。
s1×1:挤压层中 1×1 的个数。
e1×1 和 e3×3:膨胀层中 1×1 和 3×3 的数量。
当我们使用 Fire 模块时，我们将 s1×1 设置为小于(e1×1 + e3×3)，因此挤压层有助于限制 3×3 滤波器的输入通道数量，如前一节中的策略 2 所示。
对我来说，这很像《T2》的《盗梦空间》模块。

3. SqueezeNet 架构

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SqueezeNet (Left), SqueezeNet with simple bypass (Middle), SqueezeNet with complex bypass (Right)

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Details of SqueezeNet Architecture

SqueezeNet(左):从一个独立的卷积层(conv1)开始，接着是 8 个 Fire 模块(Fire 2–9)，最后是一个 conv 层(conv10)。
从网络的起点到终点，每个消防模块的过滤器数量逐渐增加。
跨距为 2 的最大池在层 conv1、fire4、fire8 和 conv10 之后执行。
带简单旁路的 SqueezeNet(中)和带复杂旁路的 SqueezeNet(右):旁路的使用灵感来自 ResNet 。

4.对 SqueezeNet 的评估

4.1.SqueezeNet 与模型压缩方法的比较

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Comparing SqueezeNet to model compression approaches

与Alex net相比，使用 SqueezeNet，我们实现了 50 倍的模型尺寸缩减，同时满足或超过了Alex net的前 1 和前 5 精度。
并且模型规模缩减远高于 SVD、网络剪枝和深度压缩。
应用 8 位量化的深度压缩，SqueezeNet 产生了一个 0.66 MB 的模型(比 32 位的 Alex net 小 363 倍)，其精度与 T2 的 Alex net 相当。此外，在 SqueezeNet 上应用 6 位量化和 33%稀疏度的深度压缩，这是一个 0.47MB 的模型(比 32 位 AlexNet 小 510 倍)，具有同等的精度。SqueezeNet 确实经得起压缩。

4.2.超参数

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Different Hyperparameter Values for SqueezeNet

挤压比(SR)(左):挤压层中的过滤器数量与膨胀层中的过滤器数量之比。
将 SR 提高到 0.125 以上，可以进一步将 ImageNet top-5 的准确率从 4.8MB 模型的 80.3%(即Alex net**-级)提高到 19MB 模型的 86.0%。**精度稳定在 86.0%，SR = 0.75(19MB 模型)，设置 SR=1.0 会进一步增加模型大小，但不会提高精度。
3×3 过滤器的百分比(右):使用 50%的 3×3 过滤器时，前 5 名的精确度稳定在 85.6%，进一步增加 3×3 过滤器的百分比会导致更大的模型尺寸，但不会提高 ImageNet 的精确度。

4.3.挤压网变体

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SqueezeNet accuracy and model size using different macroarchitecture configurations

复杂和简单的旁路连接都比普通的 SqueezeNet 架构有了更高的精度。
有趣的是，简单旁路比复杂旁路能够实现更高的准确度。
在不增加模型尺寸的情况下，增加简单的旁路连接使前 1 名精度提高了 2.9 个百分点，前 5 名精度提高了 2.2 个百分点。

使用 Fire 模块，可以在保持预测精度的同时减小模型尺寸。

参考

【2016 arXiv】【SqueezeNet】
SqueezeNet:Alex net 级别的精度，参数少 50 倍，< 0.5MB 模型大小

我以前的评论

)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(去)(。 )(他)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(呢)(?)(她)(们)(都)(不)(在)(这)(些)(情)(况)(下)(,)(她)(们)(还)(不)(在)(这)(些)(事)(上)(有)(什)(么)(情)(况)(吗)(?)(她)(们)(们)(都)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(不)(在)(这)(些)(事)(上)(,)(她)(们)(们)(还)(没)(有)(什)(么)(好)(的)(情)(情)(感)(。

物体检测 过食 R-CNN 快 R-CNN 快 R-CNN MR-CNN&S-CNN DeepID-Net CRAFT R-FCN】 [G-RMI][TDM][SSD][DSSD][约洛夫 1 ] [ 约洛夫 2 /约洛 9000 ] [ 约洛夫 3[FPN[视网膜网[DCN

语义切分 FCN de convnet deeplabv 1&deeplabv 2 CRF-RNN】SegNet】parse net dilated net DRN RefineNet

生物医学图像分割 [cumed vision 1][cumed vision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet][多通道][V-Net][3D U-Net][M FCN

实例分割 [ SDS ] [ 超列 ] [ 深度掩码 ] [ 锐度掩码 ] [ 多路径网络 ] [ MNC ] [ 实例中心 ] [ FCIS

【DeepPose】【汤普森 NIPS’14】【汤普森 CVPR’15】

回顾:SRDenseNet —用于 SR 的 DenseNet(超分辨率)

原文：https://towardsdatascience.com/review-srdensenet-densenet-for-sr-super-resolution-cbee599de7e8?source=collection_archive---------14-----------------------

带跳跃连接的 DenseNet 块优于 SRCNN、VDSR 和 DRCN

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SRDenseNet has much better quality

在这个故事里，帝国视觉科技的 SRDenseNet 在福洲中国进行了回顾。在 SRDenseNet 中， DenseNet 建议的密集块用于提取高层特征。此外，在密集块之间增加了跳跃连接。瓶颈层和解卷积层用于在重构高分辨率(HR)图像之前进行放大。发表在 2017 ICCV 上，引用 70 余次。( Sik-Ho Tsang @中)

密集块
SRDenseNet 变体
反褶积、瓶颈层和重建层
消融研究
结果

1。密集块

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Dense Block (The paths at the bottom are copied from previous layers to deeper layers.

1.1.串联而不是求和

与 ResNet ，不同的是，特征图在dense net中串接，而不是直接求和。
因此，第 i 层接收所有前面层的特征图作为输入:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中[ X 1， X 2，…，Xi1]表示在前面的卷积层 1，2，…，I1 中生成的特征图的连接。
这种 DenseNet 结构缓解了消失梯度问题。
重用已经学习过的特征地图迫使当前层学习补充信息，从而避免学习冗余特征。
此外，在所提出的网络中，每一层都有一条通向损耗的短路径，从而导致隐含的深度监督。

1.2.增长率

本次工作在一个致密区块中有 8 个褶积层。
当密集块中每个卷积层产生 k 个特征图作为输出时，一个 密集块 产生的特征图总数为 k ×8 ，其中 k 称为增长率。
增长率 k 调节每层对最终重建贡献多少新信息。
在上图中，每个块由 8 个卷积层组成。为了防止网络增长过宽，增长率设置为 16 和每个块的输出有 128 个特征图。

2。SRDenseNet 变体

2.1.SRDenseNet_H

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SRDenseNet_H

这是基本的 SRDenseNet。
8 个密集块用于提取高级特征。

2.2.SRDenseNet_HL

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SRDenseNet_HL

跳过连接用于连接低级和高级特征。
然后，连接的要素地图将用作反卷积图层的输入。

2.3.SRDenseNet_All

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SRDenseNet_All

密集跳过连接用于组合所有卷积层产生的特征图，用于 SR 重建。
反褶积层前还增加了瓶颈层。
SRDenseNet_All 有 69 个重量层和 68 个激活层。
感受野的大小与深度成正比，可以利用 LR 图像中的大量上下文信息来推断 HR 图像中的高频信息。
由于使用了许多 ReLU 层，可以在非常深的网络中利用高度非线性来模拟 LR 图像和 HR 图像之间的复杂映射函数。

3。反卷积、瓶颈和重建层

3.1.瓶颈层

网络中的所有要素地图连接在 SRDenseNet_All 中，为后续反卷积图层生成许多输入。
具有 1×1 内核的卷积层被用作瓶颈层以减少输入特征图的数量。
使用 1×1 瓶颈层，特征地图的数量减少到 256 个。
之后，去卷积层将 256 个特征图从 LR 空间变换到 HR 空间。

3.2.去卷积层

在 SRCNN 和 VDSR 中，双三次插值用于在卷积之前将低分辨率(LR)图像提升到 HR 空间。
所有卷积都在 HR 空间中进行，这增加了 SR 的计算复杂度。
此外，插值方法没有为解决随机共振问题带来新的信息。
因此，在卷积之后，使用去卷积层来学习放大滤波器。有两个好处。
首先，**它加速了 SR 重建过程。**在网络末端增加反褶积层后，整个计算过程在 LR 空间进行。如果放大因子是 r ，那么它将减少因子 r 的计算成本。
此外，来自 LR 图像的大量上下文信息用于推断高频细节。
在这项工作中，两个连续的 3×3 内核的反褶积层和 256 个特征图用于向上扩展。

3.3.重建层

重建层是一个 3×3 核和一路输出的卷积层。

4.消融研究

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

PSNR/SSIM on Urban100

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

PSNR/SSIM on 4 Datasets

从 ImageNet 中随机选择 50，000 幅图像用于训练。
在 HR 空间中裁剪尺寸为 100×100 的非重叠子图像。LR 图像是通过使用比例因子为 4 倍的双三次曲线对 HR 图像进行下采样而获得的。只有 Y 通道用于训练。
ReLU 用于所有权重层，并使用 Adam 优化器。
使用 32 的小批量。
在测试过程中，数据集 Set5，Set14 ， **B100，**来自 Berkeley 分割数据集，由 100 幅自然图像， Urban100 组成，其中包含 100 幅挑战图像。
测试了 LR 和 HR 图像之间的 4 倍比例因子。
PSNR 和 SSIM 是在图像的 Y 通道上计算的。
用的是英伟达 Titan X GPU。
SRDenseNet_All 在 SRDenseNet 变体中具有最高的 PSNR 和 SSIM。

5.结果

5.1。定量结果

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

PSNR/SSIM on 4 Datasets

对于 SRCNN ，使用最佳 9–5–5 图像模型。
至于 A+方法，它没有预测图像边界。为了公平比较，HR 图像的边界被裁剪，以便所有结果具有相同的区域。
就 PSNR 而言，所提出的方法在不同的数据集上比最新的结果实现了 0.2dB-0.8dB 的改善。
平均起来，比具有 3 层的SRCNN提高了大约 1.0 dB，比具有 20 层的【VDSR】提高了大约 0.5 dB。
所有方法中最显著的改进，包括 SRCNN 、 VDSR 和 DRCN ，都是在极具挑战性的数据集 Urban100 上获得的。

5.2.定性结果

Urban100 img096

Urban100 img099

Urban100 img004

B100 148026

B100 253027

Set14 ppt3

对于 Urban100 上的上述图像，SRDenseNet 可以很好地重建线条和轮廓，而其他方法会产生模糊的结果。
对于 B100 和 Set14 上的上述图像，SRDenseNet 可以重建纹理图案并避免失真。
在 Titan X GPU 上实现超分辨 B100 的平均速度为 36ms ，达到 4 倍缩放因子的实时 SR。

最后，作者提到，目前的研究趋势是研究 SR 问题的感知损失，如 SRGAN，它“伪造”纹理，使其具有更好的人眼感知质量，尽管 PSNR 较低。他们也会对此进行调查。

参考

【2017 ICCV】【SRDenseNet】
使用密集跳跃连接的图像超分辨率

我以前的评论

物体检测 过食 R-CNN 快 R-CNN 快 R-CNN DeepID-Net】CRAFT R-FCN ION multipath Net【T21 [ 约洛夫 1 ] [ 约洛夫 2 /约洛 9000 ] [ 约洛夫 3 ] [ FPN ] [ 视网膜网 ] [ DCN ]

语义切分 FCN de convnet deeplab v1&deeplab v2 SegNet】【parse netdilated net PSP net deeplab v3 DRN

生物医学图像分割 cumed vision 1 cumed vision 2/DCAN U-Net CFS-FCN U-Net+ResNet 多通道

实例分段 DeepMask SharpMask MultiPathNet MNC InstanceFCN FCIS 】

复习:STN —空间变换网络(图像分类)

原文：https://towardsdatascience.com/review-stn-spatial-transformer-network-image-classification-d3cbd98a70aa?source=collection_archive---------4-----------------------

使用 STN，网络内的空间转换数据，学习对平移、缩放、旋转和更一般的扭曲的不变性。

在这个故事中， Google DeepMind 的空间转换网络(STN) 做了简要回顾。STN 有助于剔除适当的区域并对其进行尺度归一化，这可以简化后续的分类任务并带来更好的分类性能，如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(a) Input Image with Random Translation, Scale, Rotation, and Clutter, (b) STN Applied to Input Image, © Output of STN, (d) Classification Prediction

它发表在 2015 NIPS 上，被引用超过 1300 次。诸如仿射变换和单应配准的空间变换已经研究了几十年。但在本文中，空间变换是用神经网络来处理的。对于基于学习的空间变换，根据输入或要素地图应用变换。并且与另一篇名为“可变形卷积网络”(2017 ICCV)的论文高度相关。因此，我决定先读这本书。( Sik-Ho Tsang @中)

概述

快速回顾空间变换矩阵
空间变压器网络
采样内核
实验结果
其他一些任务

1。快速回顾空间变换矩阵

STN 在论文中主要学习了 3 种变换。事实上，也可以应用更复杂的变换。

1.1 仿射变换

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Affine Transform

根据矩阵中的值，我们可以用不同的效果将(X1，Y1)变换为(X2，Y2)，如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Translation, Scaling, Rotation, and Shearing

如果有兴趣，请谷歌“注册”、“单应矩阵”，或者“仿射变换”。

1.2 射影变换

投影变换也可以在 STN 中学习，如下所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Projective Transformation

1.3.薄板样条(TPS)变换

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Thin Plate Spline (TPS) Transformation

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

An example

对于 TPS 改造来说，相对于前两次改造更为复杂。(之前学过仿射和射影映射，关于 TPS 没接触过，如有错误，请告知。)
简而言之，假设我们在不同于输入点(xi，易)的位置有一个点(x，y)，我们使用右边的等式基于偏差、x 和 y 的加权和以及(x，y)和(xi，易)之间的距离函数来变换该点。(这里一个径向基函数 RBF 。)
所以如果我们用 TPS，网络需要学习 a0，a1，a2，b0，b1，b2，Fi，Gi，这是 6+2N 个数的参数。
正如我们所看到的，TPS 可以实现更灵活或更高自由度的变形或转换。

2。空间变压器网络

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Affine Transformation

STN 由定位网、网格生成器和采样器组成。

2.1。本地化网络

用**输入特征图U，用 W ，高度 H 和 C 通道，输出为θ，变换的参数 Tθ 。它可以被学习为如上的仿射变换。或者更受约束，例如用于注意力的，其仅包含缩放和平移，如下:**

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Only scaling and translation

2.2.电网发电机

假设我们有一个规则的网格 G，这个 G 是目标坐标为**(XT _ I，yt_i)** 的点的集合。
然后我们对 G 应用变换 Tθ ，即 Tθ ( G )。
在 Tθ ( G 之后，输出一组带有目的坐标(xt_i，yt_i)的点。这些点已根据变换参数进行了更改。它可以是平移、缩放、旋转或更一般的扭曲，这取决于我们如何如上所述设置 θ 。

2.3.取样器

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(a) Identity Transformation, (b) Affine Transformation

基于新的一组坐标(xt_i，yt_i)，我们生成变换后的输出特征图 V 。这个 V 被平移、缩放、旋转、扭曲、投影变换或仿射，无论什么。
注意，STN 不仅可以应用于输入图像，还可以应用于中间特征图。

3.采样内核

正如我们在上面的例子中看到的，如果我们需要对一个变换的网格进行采样，我们会遇到采样问题，我们如何对这些子像素位置进行采样取决于我们将要使用的采样核。
通用格式:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

整数采样内核(四舍五入到最接近的整数):

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

双线性采样内核:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是一种(次)可微的采样机制，因此便于反向传播:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4。实验结果

4.1.扭曲的 MNIST

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Errors of distorted MNIST datasets (Left), Some examples that are failed in CNN but successfully classified in STN (Right)

应用的扭曲 : TC :平移和杂乱， R :旋转， RTS :旋转、平移和缩放， P :投影扭曲， E :弹性扭曲。
空间变换 : Aff :仿射变换， Proj :射影变换， TPS :薄板样条变换。
FCN :这里的 FCN 是指没有卷积的全连接网络(这里不是全卷积网络。)
正如我们所见，圣 FCN 胜过 FCN，圣 CNN 胜过 CNN。
ST-CNN 在各方面都比 ST-FCN 好。

4.2.街景门牌号码

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Errors of SVHN datasets (Left), Some examples use in ST-CNN (Right)

ST-CNN 单个:网络开头只有一个 ST。
ST-CNN Multi :每个 conv 前一个 ST。
这里使用仿射变换。
同样，ST-CNN 也胜过 Maxout 和 CNN。(我在 NoC 里有一个非常简单的关于 Maxout 的介绍，有兴趣的可以看看。)
和 ST-CNN 多优于 ST-CNN 单一一点。

4.3.精细分类

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Fine-Grained Bird Classification. Accuracy(left), 2×ST-CNN (Top Right Row), 4×ST-CNN (Bottom Right Row)

这里，ImageNet 预训练的 Inception-v2 被用作对 200 个物种进行分类的主干，具有 82.3%的准确率。
2/4×ST-CNN : 2/4 平行 STs，精度更高。
有趣的是，其中一只(红色)学会了头部探测器，而另外三只(绿色)学会了鸟身体的中心部分。

5.一些其他任务

5.1.MNIST 加成

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

MNIST Addition

有趣的是，虽然每个 ST 也接收两个输入数字，但是每个 ST 都学习转换每个数字。

5.2.协同定位

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Co-localisation

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

三重损失:铰链损失用于强制 ST 的两个输出之间的距离小于到随机作物的距离，希望鼓励空间转换器定位公共对象。

5.3.高维变压器

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

STN 还可以扩展为 3D 仿射变换。

不同的数据集有不同的网络架构和设置。如果你想了解细节，最好去看看报纸。接下来我大概会回顾一下关于可变形卷积网络。

参考

【2015 NIPS】【ST】
空间变压器网络

我的相关评论

)(我)(们)(都)(不)(想)(到)(这)(些)(人)(,)(我)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(是)(这)(些)(人)(还)(不)(想)(到)(这)(些)(人)(,)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(就)(想)(到)(了)(这)(些)(人)(们)(,)(我)(们)(们)(都)(不)(想)(要)(到)(这)(些)(人)(,)(但)(我)(们)(还)(没)(想)(到)(这)(些)(事)(,)(我)(们)(还)(没)(想)(到)(这)(里)(来)(。 )(他)(们)(都)(不)(是)(真)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(实)(

物体检测 过食 R-CNN 快 R-CNN 快 R-CNN DeepID-Net】R-FCN】离子多路径网 NoC

语义切分 FCN de convnet deeplab v1&deeplab v2 parse net】dilated net PSP net deeplab v3

生物医学图像分割 [cumed vision 1][cumed vision 2/DCAN][U-Net][CFS-FCN][U-Net+ResNet

实例分割
[深度掩码 ] [ 锐度掩码 ] [ 多路径网络 ] [ MNC ] [ 实例中心 ] [ FCIS

超分辨率 Sr CNN fsr CNN VDSR ESPCN 红网】