一篇看懂CVPR 2017五大研究前沿 | 腾讯AI Lab深度解析

最新推荐文章于 2024-07-10 11:43:10 发布

腾讯AI实验室

最新推荐文章于 2024-07-10 11:43:10 发布

阅读量1.6k

点赞数 1

本文链接：https://blog.csdn.net/y80gDg1/article/details/78141441

版权

腾讯AI Lab深度解析了CVPR 2017的五大研究前沿，包括低中层视觉、图像描述生成、3D视觉、计算机视觉与机器学习、弱监督下的图像识别。文章介绍了在低中层视觉中，使用GAN loss的超分辨率研究，图像描述生成的SCA-CNN和自我批评序列训练等方法，以及3D视觉中的对称性和曼哈顿结构在物体结构重建中的应用。此外，还探讨了深度学习与传统机器学习的融合以及弱监督学习在目标检测和语义分割中的进展。

摘要由CSDN通过智能技术生成

感谢阅读腾讯AI Lab微信号第二篇文章，我们将深度解析本届CVPR热门研究。第一部分是五大前沿领域的重点文章解析，包括低中层视觉、图像描述生成、3D视觉、计算机视觉与机器学习、弱监督下的图像识别等。第二部分是CVPR及我们计算机视觉团队简介等。接下来的两篇文章中，我们将对顶级会议ACL和ICML做类似深度解读，敬请期待。

* 文章转载请注明来自微信腾讯AI实验室（tencent_ailab）

腾讯AI Lab去年四月成立，今年是首次参展CVPR，共计六篇文章被录取（详情见文末），由计算机视觉总监刘威博士带队到现场交流学习。

腾讯AI Lab展台及CV科学家在Poster环节介绍论文

从研究领域和前沿思考出发，我们重点关注了五大领域的前沿研究，以下为重点论文评述。

一、低中层视觉问题

Low-Level and Mid-Level Vision

在计算机视觉领域里，低中层视觉问题更关注原始视觉信号，与语义信息的联系相对松散，同时也是许多高层视觉问题的预处理步骤。本届CVPR有关低中层视觉问题的论文有很多，涵盖去模糊、超分辨率、物体分割、色彩恒定性（Color constancy）等多个方面，方法仍以深度学习为主。

其中在超分辨率有关的工作中，较为值得关注来自Twitter的Ledig等人所著文章[1]。这是第一篇将生成对抗网络（Generative Adversarial Network，简称GAN）思想用于图像超分辨率的研究（具体结构见下图）。以前的超分辨率方法，大都使用平均平方误差（Mean Square Error，简称MSE）导出的损失函数（loss），直接最小化MSE loss虽能得到不错的超分辨率结果，但难以避免细节上的模糊，这是MSE本身设计问题导致的。

[1]Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network. Ledig C, Theis L, Huszár F, et al. In Proceedings of CVPR 2017.

虽然后来阿斯利康DNA测序机构的Johnson与斯坦福大学的Alahi等人[2]在ECCV 2016时中提出使用Perceptual loss替代MSE loss，获得了细节更丰富的超分辨率结果，但仍然有进步的空间。而Ledig等人的这篇论文在Perceptual Loss基础上加入GAN loss，约束超分辨率结果需符合自然图像分布规律，使超分辨率结果获得了非常逼真的细节效果。此方法也并非全无缺点，由于GAN loss考虑的是自然图像的整体分布，与具体输入图像（即测试图像）无关，因此恢复的图像细节可能并不忠实于原图，类似「捏造」出假细节，因此不适用于一些追求细节真实性的应用。

[2] Perceptual Losses for Real-Time Style Transfer and Super- Resolution. Johnson J, Alahi A, Fei-Fei L. In Proceedings of ECCV 2016.

使用GAN loss生成的结果（黄色方框）能够落在自然图像分布上（红色方框集合）。MSE loss虽能获得平均意义上的最小误差（蓝色方框），但却没落在自然图像分布上（红色方框的集合），因而丢失了很多图像细节。

未来，将GAN loss引入到视频超分辨率的解决方案中是一个很自然的扩展，相信很快会有研究工作出现。值得一提的是，Twitter的这批研究人员在本届CVPR还有一篇关于视频超分辨率的论文[3]，虽未引入GAN Loss，但通过更好帧间对齐方法提升了视频超分辨率的可视化效果。

[3] Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation. Caballero J, Ledig C, Aitken A, et al. In Proceedings of CVPR 2017.

二、图像/视频描述生成

Image or Video Captioning

粗略统计，本届CVPR有16篇视觉描述生成相关论文，其中有8篇图像描述生成相关论文，其他论文多集中在视频描述生成方向。我们重点关注了其中几个较有代表性的研究：

1）SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

这篇论文由腾讯AI Lab和浙江大学等机构合作完成，主要讨论了视觉注意力模型在空间与通道上的作用。该模型能动态提取随时间变化的上下文注意力信息。传统的注意力模型通常是针对空间设计的，例如在产生图像的描述的过程中，模型的注意力模型会注意图像的不同区域。但会忽略CNN中的通道和多层中的信息。这篇论文提出了一个全新模型SCA-CNN，可针对CNN中的空间和通道信息设计新的注