2021CVPR - Inception convolution

最新推荐文章于 2021-09-07 23:55:47 发布

woshicver

最新推荐文章于 2021-09-07 23:55:47 发布

阅读量565

点赞数

文章标签：网络人工智能深度学习算法计算机视觉

作者：孙明

链接：https://zhuanlan.zhihu.com/p/354194188

本文转载自知乎，作者已授权，未经许可请勿二次转载

序：

写一个我们最近被CVPR2021接受的工作，主要使用一些优化手段来找到新的卷积模式，目标是能够找到一个部署友好简单的卷积来帮助下游各个任务更好的提升baseline。之前别人有相关贴写过一些（暴力涨点 | IC-Conv使用高效空洞搜索Inception卷积带来全领域涨点），标题有点夸张，这里主要补充一下我对这个问题的认知。

背景：

1，熟悉检测/姿态估计/或者low-level处理的研究人员应该比较清楚，感受野或者说如何获得一个自适应的感受野网络是非常重要的。原因在于类别较多时，不同物体的scale是不一样的。比如有的人在图片里占比就比较小，有些就非常大。

2，熟悉细粒度分类的同学（比如人脸/猫狗之类的），可以明白在早起很多比赛中，inception-resnet经常取得一些不错的结果，具体可以看一些顶会的FG比赛报告。其原因也比较简单，因为细粒度更注重局部的细节捕获能力。

动机：

几个领域对应的问题；

（1）检测/pose/seg/low-level里面有很多来改善感受野的方案，比如我们之前的几篇文章，但是核心问题在于优化手段较差，训练和部署不友好；

（2）NAS领域，实际NAS有个核心关键点在于一个平衡：如何在搜索空间复杂度和精度之间做tradeoff。我的初衷是把NAS放小，NAS为Network 的架构搜索，我在想能不能把它分解成Block级别或者是OP级别的搜索。其次NAS的优化手段有很明显的弊端：RL/one-shot，保序性和时间复杂度都很不友好。希望能够引入新的信息差，帮助更好的优化；

（3）Incaption的精巧设计在很多网络和任务里面都有用到，我们将其进一步压缩，直接放在一个卷积中实现inception的思想精髓。

方案：所以整体方案就很明确了，

（1）需要做一个OP的架构搜索；

（2）优化方法是简洁却不同于NAS的已有两种手段；

（3）把inception思想塞到OP里面去；具体操作就比较简单了，将一个卷积进行分组，要实现inception（用最简单的dilation代替就好，也可以选用更贱复杂的，欢迎大家follow，亲测有效）；优化方案得益于OP的缩小，可以用基于统计的优化思路，真的是比RL/one-shot省事太多了。希望后面还有inception-con v2/v3 出现。