深度学习在计算机视觉领域（包括图像，视频，3-D点云，深度图）的应用一览

最新推荐文章于 2023-02-06 18:07:57 发布

硅谷秋水

最新推荐文章于 2023-02-06 18:07:57 发布

阅读量1.5k

点赞数

分类专栏：机器学习文章标签：计算机视觉深度学习机器学习

原文链接：https://zhuanlan.zhihu.com/p/82768174

版权

机器学习专栏收录该内容

250 篇文章 2 订阅

订阅专栏

深度学习在计算机视觉领域（包括图像，视频，3-D点云，深度图）的应用一览

计算机视觉、以及深度学习在其中的应用闲扯

深度学习无疑是最近人工智能领域最有影响力的方法，在语音识别、计算机视觉、自然语言处理、游戏、机器人和自动驾驶等领域起了非常大的作用，有的可以说是所在领域最成功的一次突破。

计算机视觉从2012年ImageNet获得冠军的AlexNet起，深度学习已经产生了巨大的贡献，从最早的图像分类，到目标检测、识别、分割和跟踪等，都可以看到替代传统视觉方法和战胜以前浅层机器学习的杰出成果。特别是近几年来，我们看到深度学习在计算机视觉的另外两个传统的领域开始发力，一是底层的图像处理和计算摄影学，特别是逼真度极高的一些人脸合成和替换让人感到了深度学习的威力，有得甚至引起了社会道德范畴的反思；另一个是3-D重建，其中包括了2.5D的深度估计和运动估计等，这个本是传统计算机视觉的核心，也是大家觉得确定性（deterministic）计算和估计是必要存在的防守“领地”，现在也在接受深度学习的挑战。另外，在一些计算机视觉外围的领域，比如和图形学结合的图像合成技术，以及和自然语言处理合作的图像加注和问答，还有自动驾驶系统中的多传感器融合技术等，也看到了深度学习的“身影”。

Marr School的贡献就是给出了一个分层的世界描述框架：从首要简约图（primal sketch），到2.5 D 深度简约图，再到3D sketch。这里面包含纹理、立体视觉、运动分析、表面形状等元素。在Marr时代，计算视觉是一个计算的“过程”，很多时候被看成是一个优化问题求解，而其自身问题的病态（2-D图像推断3-D空间结构）让我们必须加入各种各样的约束关系。后来，人们学着用概率统计的方法去理解这个问题，就是贝叶斯方法，将视觉表达成为一个后验概率，寻求一个最优解。而目前的深度学习其实是在用大量数据去学习视觉的理解过程，不同的视觉任务对应了不同的深度学习模型。而最优解的实现靠的是定义的损失函数，其中很多先验知识也被放进损失函数中，有些像以前的约束优化问题解法。最近，不少学者在探讨如何将深度学习和贝叶斯方法结合，即贝叶斯深度学习（BDL），说明先验知识和后验概率仍然需要被显式地体现出来。

最近大家也有一种担心，是不是深度学习在计算机视觉的工作已经到了一个瓶颈？比如，有人就质疑这些工作其实只是一种记忆，当遇到新的情况或者极端例子（corner case），深度学习仍然不能很好地处理。另外，GAN理论的发展让人们看到了这些成果存在隐忧，比如目标检测会在某些图片模式下失败。对于这些问题和担忧，科学家也不会回避，发现问题往往是解决问题的开始。

对于深度学习的发展，专家们也有一些展望，比如

非监督学习方法的引入减轻大数据标注的负担，比如GAN；
NN模型的压缩和精简以普及深度学习在移动终端甚至物联网终端的广泛应用；
还有深度学习能够更多的引入人类知识和简单可靠的推理，以减少“暴力“学习的误差和错误，比如贝叶斯理论、知识图谱、逻辑推理、符号学习、多任务联合训练和迁移学习等等。
那么，计算机视觉本身会发展吗？当然会。应该说，计算机视觉仍然有大片的“蓝海”等待学者和科学家们去发掘。在Marr School，有一个视觉的认知理论常常被忽视，视觉是一个过程，在一个不断观察世界的过程中，新的信息和线索不断地加入，而环境的认知被累积和更新；而且，不同阶段的任务会不同，产生的认知任务前后之间也存在某种联系。比如，对视频的认知，我们的视觉理论就显得薄弱好多，特别是事件和行为模型的研究仍然需要更多的投入。

另外，传感器的发展，例如在自动驾驶领域激光雷达的使用，会将计算机视觉推向更大的范畴；对传感器融合来说，新的传感器增加了冗余，同时也会推动视觉部分得到更多的先验知识提高算法的鲁棒性。

我们相信深度学习和计算机视觉的结合还会继续下去，随着深度学习的理论发展，我们相信会有更好的解决方法出现。