Abstract
基于互补搜索技术和新颖的架构设计的组合展示了下一代 MobileNets。MobileNetV3 通过硬件感知网络架构搜索 (NAS) 与 NetAdapt 算法相结合调整为手机 CPU,然后通过新颖的架构进步进行改进。本文开始探索自动搜索算法和网络设计如何协同工作以利用改进最新技术的互补方法。通过这个过程,创建了两个新的 MobileNet 模型来发布:MobileNetV3-Large 和 MobileNetV3-Small,它们针对高资源和低资源用例。然后调整这些模型并将其应用于目标检测和语义分割的任务。对于语义分割任务(或任何密集像素预测),我们提出了一种新的高效分割解码器 Lite Reduced Atrous Spatial Pyramid Pooling (LR-ASPP)。
1. Introduction
本文的目的是开发最佳可能的移动计算机视觉架构,优化移动设备上的准确性延迟权衡。为此,我们引入了 (1) 互补搜索技术,(2) 移动设置实用的新有效非线性版本,(3) 新的高效网络设计,(4) 一种新的高效分割解码器。我们提出了充分的实验,展示了在广泛的用例和手机上评估的每种技术的有效性和价值。
2. Related Work
这一块没什么说的了
3. Efficient Mobile Building Blocks
移动模型建立在越来越高效的构建块之上。MobileNetV1引入了深度可分离卷积作为传统卷积层的有效替代品。深度可分离卷积通过将空间滤波与特征生成机制分离来有效地分解传统卷积。深度可分离卷积由两个独立的层定义:用于空间过滤的轻量级深度卷积和用于特征生成的更重的 1x1 逐点卷积。
MobileNetV2 引入了线性瓶颈和倒残差结构,通过利用问题的低秩性质使更有效的层结构。这种结构如下图所示,由 1x1 扩展卷积和深度卷积和 1x1 投影层定义。当且仅当输入和输出具有相同的通道数时,它们才会与残差连接连接。这种结构在输入和输出处保持紧凑的表示,同时内部扩展到高维特征空间,以增加非线性每通道变换的表达能力。
MnasNet 通过引入基于挤压和激发的轻量级注意力模块来构建在 MobileNetV2 结构上。挤压激励模块与(Squeeze-and-Excitation Networks}中提出的基于 ResNet 的模块集成在不同的位置。该模块放置在扩展中的深度过滤器之后,以便注意力应用于最大表示,如下图所示。
对于 MobileNetV3,我们使用这些层的组合作为构建块来构建最有效的模型。层也通过修改后的 swish 非线性进行升级。挤压和激发以及摆动非线性都使用 sigmoid,这对于在固定点算术中保持准确性可能效率低下,因此我们将其替换为hard sigmoid
4. Network Search
网络搜索已被证明是发现和优化网络架构非常强大的工具。对于MobileNetV3,我们使用平台感知的NAS通过优化每个网络块来搜索全局网络结构。然后我们使用 NetAdapt 算法在每一层中搜索过滤器的数量。这些技术是互补的,可以结合起来,有效地为给定的硬件平台找到优化模型。
4.1. Platform-Aware NAS for Block-wise Search
采用平台感知神经架构方法来找到全局网络结构。由于我们使用相同的基于 RNN 的控制器和相同的分解分层搜索空间,我们发现对于目标延迟约为 80 毫秒的大型移动模型,我们简单地重用与我们最初的大型移动模型相同的 MnasNet-A1,然后在其之上应用 NetAdapt和其他优化。
然而,我们观察到原始奖励设计没有针对小型移动模型进行优化。具体来说,它使用多目标奖励 来近似帕累托最优解,通过基于目标延迟 T AR 平衡每个模型的模型精度 ACC(m) 和延迟 LAT (m)。我们观察到小模型的延迟,精度变化要大得多。因此,我们需要一个更小的权重因子w =−0.15,以补偿不同延