一篇看懂CVPR 2017五大研究前沿 | 腾讯AI Lab深度解析

感谢阅读腾讯AI Lab微信号第二篇文章,我们将深度解析本届CVPR热门研究。第一部分是五大前沿领域的重点文章解析,包括低中层视觉、图像描述生成、3D视觉、计算机视觉与机器学习、弱监督下的图像识别等。第二部分是CVPR及我们计算机视觉团队简介等。接下来的两篇文章中,我们将对顶级会议ACL和ICML做类似深度解读,敬请期待。* 文章转载请注明来自微信腾讯AI实验室(tencent_ailab)
摘要由CSDN通过智能技术生成

感谢阅读腾讯AI Lab微信号第二篇文章,我们将深度解析本届CVPR热门研究。第一部分是五大前沿领域的重点文章解析,包括低中层视觉、图像描述生成、3D视觉、计算机视觉与机器学习、弱监督下的图像识别等。第二部分是CVPR及我们计算机视觉团队简介等。接下来的两篇文章中,我们将对顶级会议ACL和ICML做类似深度解读,敬请期待。

* 文章转载请注明来自微信腾讯AI实验室(tencent_ailab)


腾讯AI Lab去年四月成立,今年是首次参展CVPR,共计六篇文章被录取(详情见文末),由计算机视觉总监刘威博士带队到现场交流学习。

腾讯AI Lab展台及CV科学家在Poster环节介绍论文


从研究领域和前沿思考出发,我们重点关注了五大领域的前沿研究,以下为重点论文评述。


一、低中层视觉问题

Low-Level and Mid-Level Vision


在计算机视觉领域里,低中层视觉问题更关注原始视觉信号,与语义信息的联系相对松散,同时也是许多高层视觉问题的预处理步骤。本届CVPR有关低中层视觉问题的论文有很多,涵盖去模糊、超分辨率、物体分割、色彩恒定性(Color constancy)等多个方面,方法仍以深度学习为主。


其中在超分辨率有关的工作中,较为值得关注来自Twitter的Ledig等人所著文章[1]这是第一篇将生成对抗网络(Generative Adversarial Network,简称GAN)思想用于图像超分辨率的研究(具体结构见下图)。以前的超分辨率方法,大都使用平均平方误差(Mean Square Error,简称MSE)导出的损失函数(loss),直接最小化MSE loss虽能得到不错的超分辨率结果,但难以避免细节上的模糊,这是MSE本身设计问题导致的。

[1]Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network. Ledig C, Theis L, Huszár F, et al. In Proceedings of CVPR 2017.


虽然后来阿斯利康DNA测序机构的Johnson与斯坦福大学的Alahi等人[2]在ECCV 2016时中提出使用Perceptual loss替代MSE loss,获得了细节更丰富的超分辨率结果,但仍然有进步的空间。而Ledig等人的这篇论文在Perceptual Loss基础上加入GAN loss,约束超分辨率结果需符合自然图像分布规律,使超分辨率结果获得了非常逼真的细节效果。此方法也并非全无缺点,由于GAN loss考虑的是自然图像的整体分布,与具体输入图像(即测试图像)无关,因此恢复的图像细节可能并不忠实于原图,类似「捏造」出假细节,因此不适用于一些追求细节真实性的应用。

[2] Perceptual Losses for Real-Time Style Transfer and Super- Resolution. Johnson J, Alahi A, Fei-Fei L. In Proceedings of ECCV 2016.

使用GAN loss生成的结果(黄色方框)能够落在自然图像分布上(红色方框集合)。MSE loss虽能获得平均意义上的最小误差(蓝色方框),但却没落在自然图像分布上(红色方框的集合),因而丢失了很多图像细节。


未来,将GAN loss引入到视频超分辨率的解决方案中是一个很自然的扩展,相信很快会有研究工作出现。值得一提的是,Twitter的这批研究人员在本届CVPR还有一篇关于视频超分辨率的论文[3],虽未引入GAN Loss,但通过更好帧间对齐方法提升了视频超分辨率的可视化效果。

[3] Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation. Caballero J, Ledig C, Aitken A, et al. In Proceedings of CVPR 2017.


二、图像/视频描述生成

Image or Video Captioning


粗略统计,本届CVPR有16篇视觉描述生成相关论文,其中有8篇图像描述生成相关论文,其他论文多集中在视频描述生成方向。我们重点关注了其中几个较有代表性的研究:


1)SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

这篇论文由腾讯AI Lab和浙江大学等机构合作完成,主要讨论了视觉注意力模型在空间与通道上的作用。该模型能动态提取随时间变化的上下文注意力信息。传统的注意力模型通常是针对空间设计的,例如在产生图像的描述的过程中,模型的注意力模型会注意图像的不同区域。但会忽略CNN中的通道和多层中的信息。这篇论文提出了一个全新模型SCA-CNN,可针对CNN中的空间和通道信息设计新的注

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值