乔宇：深度模型让机器理解场景|VALSE2017之十一

最新推荐文章于 2024-01-21 03:41:19 发布

深度学习大讲堂

最新推荐文章于 2024-01-21 03:41:19 发布

阅读量3.8k

点赞数

本文链接：https://blog.csdn.net/xwukefr2tnh4/article/details/78139791

版权

点击上方“深度学习大讲堂”可订阅哦！

编者按：所谓场景，无论是“万家灯火”亦或是“巴山夜雨”，于人是一种直观自然的感受；然而，对于机器而言，再多的温情脉脉，都也只是计算机世界冰冷的二进制符号。这区别的背后，其实是人在成长过程中形成的对世界的认知与理解。因此，让机器学会去准确地理解场景、理解世界，是视觉智能的一个重要标志。在本文中，来自中科院的乔宇研究员，将为大家介绍面向大规模场景分类的深度学习模型，通过三部分详尽的工作介绍，为我们揭开场景分类问题神秘的面纱。大讲堂在文末特别提供文中提及所有文章和代码的下载链接。

计算机视觉领域有几个基本问题:

图像中有什么，即物体的识别和检测；
图像是在哪里拍摄的，即环境的识别，通常将其定义为场景分类问题，这也是今天要讲的主题；
在图像或者视频中发生着什么样的行为和事件，即行为识别问题。

为什么用深度学习方法？

在过去的五年时间中，深度学习方法极大地推动了计算机视觉技术的发展。在这里我列出了物体识别、场景分类和行为识别领域三个广泛使用数据集的效果，其中蓝色的柱状图表示非深度学习方法的结果，红色的柱状图表示深度学习方法的结果，可以看到在这三个问题中深度学习方法都取得了比传统方法更好的结果。

另一方面，随着深度学习自身的发展，其在各个问题上的性能也有非常快速的增长。这也是为什么在深度学习领域会吸引很多工业界的人士参与，因为当我们的技术好到一定程度时，可以在工业界进行大规模的应用，可以很好地解决实际的问题。

其中最有名的一个例子就是 ImageNet 竞赛，其包含100多万张图片共1000个类别。这个竞赛是由李飞飞在2010年开启的，可以看到在2010年和2011年的 top-5错误率还是相当高的。到了2012年，Hinton 的研究组第一次使用深度卷积神经网络来解决这一问题，将 top-5错误率降低到十几个百分点，之后每年也会有明显的降低，到2015年其 top-5错误率已经达到了3.5%，甚至超越了人类的识别能力。

场景识别

图像识别和理解的另一个问题就是场景识别。场景识别和物体识别的确具有很大的相关性，场景中包含的物体对于场景的类别具有很大的影响；但是场景的类别不仅仅取决于物体，它实际上是由各个语义区域及其层级结构和空间布局决定的。所以场景识别与物体识别既有相关性又有不同点，之后我会讲到如何利用这些不同点针对场景识别的特点来设计新的深度模型以提高其识别率。