深度学习毫无疑问成为热点,尤其是和机器视觉相结合,到底目前具体有那些应用,本文简单归纳如下:
- AlexNet应该算第一个深度CNN;
- ZFNet采用DeconvNet和visualization技术可以监控学习过程;
- VGGNet采用小滤波器3X3去取代大滤波器5X5和7X7而降低计算复杂度;
- GoogleNet推广NIN的思路定义Inception基本模块(采用多尺度变换和不同大小滤波器组合,即1X1,3X3,5X5)构建模型;
- Highway Networks借鉴了RNN里面LSTM的gaiting单元;
- ResNet是革命性的工作,借鉴了Highway Networks的skip connection想法,可以训练大深度的模型提升性能,计算复杂度变小;
- Inception-V3/4用1X7和1X5取代大滤波器5X5和7X7,1X1滤波器做之前的特征瓶颈,这样卷积操作变成像跨通道(cross channel)的相关操作;
- DenseNet主要通过跨层链接解决vanishing gradient问题;
- SE-Net是针对特征选择的设计,gating机制还是被采用;
- 前段时间流行的Attention机制也是借鉴于LSTM,实现object-aware的context模型。
在具体应用领域也出现了不少成功的模型,比如
- detection问题的R-CNN,fast RCNN,faster RCNN,SSD,YOLO,RetinaNet,CornerNet等,
- 解决segmentation问题的FCN,DeepLab,Parsenet,Segnet,Mask R-CNN,RefineNet,PSPNet,U-Net等,
- 处理激光雷达点云数据的VoxelNet,PointNet,BirdNet,LMNet,RT3D,PIXOR,YOLO3D等,
- 实现激光雷达和图像融合的PointFusion,RoarNet,PointRCNN,AVOD等,
- 做图像处理的DeHazeNet,SRCNN (super-resolution),DeepContour,DeepEdge等,
- 2.5 D视觉的MatchNet,DeepFlow,FlowNet等,
- 3-D重建的PoseNet,VINet,Perspective Transformer Net,SfMNet,CNN-SLAM,SurfaceNet,3D-R2N2,MVSNet等,
- 以及解决模型压缩精简的MobileNet,ShuffleNet,EffNet,SqueezeNet,