CVPR 2020(Oral) | 华为提出CRA：上下文残差聚合在超高清图片补全中的应用

视学算法

于 2020-05-29 11:14:45 发布

阅读量1k

点赞数

原文链接：https://zhuanlan.zhihu.com/p/142944499

版权

点击上方“视学算法”，选择加"星标"置顶

重磅干货，第一时间送达

编辑：Cver

本文作者：傅渥成

https://zhuanlan.zhihu.com/p/142944499

本文已由原作者授权，不得擅自二次转载

论文：https://arxiv.org/abs/2005.09704

代码：https://github.com/Atlas200dk/sample-imageinpainting-HiFill

近年来，基于数据驱动的图像补全方法已经取得较大进展，并在图像编辑领域有所应用。该类方法较传统方法更有潜力，然而，由于内存限制，它们仅能处理低分辨率的图片，图片尺寸通常小于1K，难以满足高清图片编辑的需求。

最近，我的好朋友易子立和他在华为海思研究部的同事们提出了一种名叫“上下文残差聚合（Contextual Residual Aggregation）”的机制，可以通过对背景区域（即所谓“上下文”）中的残差进行加权聚合来生成丢失内容的高频残差，因而可以得到图片中的各种高清细节。

该方法首次实现了使用神经网络对8K图片进行补全，不仅得到了高质量的结果，而且存储空间和耗时都比较小。用这一方法对高清图片进行处理（移除图片中的人物并补全图片），得到的效果如下图所示，这些图片原本都有非常高的分辨率，通过这一方法处理后，图片中仍然有非常逼真和完美的细节，我在这里对图片进行了压缩，感兴趣的朋友可以到论文中查看更清晰的图像。

这一工作中所采用的神经网络结构如下图所示，其中，图片的上半部分展示了上下文残差聚合机制，下半部分展示了生成器的具体结构。

由于神经网络的卷积层只需要在低分辨率的输入和输出上进行操作，因此内存成本和计算时间大大降低。此外，由于该模型可以用低分辨率的图像进行训练，因此对高分辨率训练数据集的需求得到了缓解。这一方法可以对大到8K的图像进行处理，并能达到令人满意的质量，这是之前基于学习的方法无法处理的。

实验结果

目前该论文已被CVPR 2020接收为 oral presentation。该模型已在华为的AI芯片Ascend 310上部署，并在Github上开源，链接：

https://github.com/Atlas200dk/sample-imageinpainting-HiFill

请给一个在看！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。