NAS
主要包含网络架构搜索相关的论文
莫问余年
这个作者很懒,什么都没留下…
展开
-
DOTS: Decoupling Operation and Topology in Differentiable Architecture Search 论文阅读笔记
这是一篇CVPR2021的关于NAS的论文,对DARTS进一步改进原创 2022-04-05 11:33:12 · 861 阅读 · 0 评论 -
HourNAS: Extremely Fast Neural Architecture Search Through an Hourglass Lens论文笔记
这是一篇CVPR2021年关于网络架构搜索的论文,比较创新的点是按照块的重要程度来进行架构搜索,实现了效率的提升并且硬件友好。作者通过观察残差网络,发现一个神经网络之中只有少部分块结构是非常重要的,如下图,如果把神经网络的输入到输出的所有路径都统计出来,发现只有少数块是出现在所有路径中的(例如第一层、最后的全连接层、下采样块和通道扩张块,其他块总会找到替代路径,所以相对来说并没有那么重要。更具体的,作者在MnasNet和MobileNetV2上分别固定所有层而对一层的通道使用掩码以(0.3,0.原创 2022-04-04 21:48:42 · 1029 阅读 · 0 评论 -
Gradients without Backpropagation论文概要
目前深度学习主要使用反向传播来计算优化目标函数的梯度,使用的自动微分算法主要为反向模式,本文作者从自动微分算法的正向模式入手,力求得到比反向传播运行速度更快的前向传播模式。首先,作者分别介绍了正向模式:和反向模式:其中θ为输入,为θ在函数f(θ)上所有偏导数组成的雅克比矩阵,v为扰动向量。正向模式的特点是只需要对一个函数进行一次正向评估(即没有用到任何反向传播),计算成本明显降低,作者从正向模式出发,定义使用正向模式微分的梯度下降算法,梯度公式如下:其中但由于正向模式的特点,需要...原创 2022-03-24 21:40:36 · 1140 阅读 · 2 评论 -
GOLD-NAS论文概要
针对问题:(1)DARTS搜索空间的高限制性:所有normal cell共享架构、每个节点固定接收两个输入、每条边仅保留一个操作等,这些限制虽然增加了NAS的稳定性,但是也限制了其准确性。(2)DARTS使用二阶段优化,这种方法带来计算负担,同时梯度估计中的不准确性会严重影响搜索过程。(3)DARTS在优化超网后会立即对权重低的操作边进行剪枝,可能会产生离散化错误,尤其是当被修剪的操作边权重不能保证很小的时候。解决办法:(1)扩大搜索空间,减少启发式限制:所有cell可以有不同的架构、每条边可以包原创 2022-03-05 19:42:53 · 595 阅读 · 0 评论 -
PC-DARTS论文概要
核心思想:在每个步骤中随机采样所有通道中的一个子集,而不是将所有通道都发送到操作选择块中,将被选中子集视为所有通道的一个代理近似。优点:显著减小计算和存储花费,增大批次大小,减少选择操作时的偏差,增强模型稳定性,正则化低参操作(跳跃连接,池化)和高参操作(各式卷积),避免陷入局部最优。缺点:DARTS使用通道选择操作,在进行随机通道采样时,不同迭代次数采样到的通道不尽相同,导致操作选择的不稳定,进而影响模型的稳定性。解决办法:边标准化,在已有架构参数α的基础上引入参数β(训练过程中贡共享,对架构搜索原创 2022-03-05 16:44:36 · 494 阅读 · 0 评论 -
P-DARTS论文概要
针对问题:(1)DARTS在CIFAR10上实验时,直接将搜索到的8个cell的网络扩充到二十个cell,normal cell和reduction cell结构保持不变,无法保证该网络结构效果会更好。(2)在进行架构搜索时由于跳跃连接梯度下降快,使得优化架构参数时其分配的权重较大,最后搜索到的结构往往包含大量的跳跃连接,导致模型不稳定。解决方法:(1)采用渐近搜索策略,逐步延长网络的深度:针对增加深度对GPU内存的负担,对操作进行删减:(2)...原创 2022-03-05 15:19:56 · 345 阅读 · 0 评论