【在手机上使用相机融合的高效混合变焦】

Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

摘要:
单反相机可以通过改变镜头距离或交换镜头类型来实现多个变焦级别。然而,由于空间限制,这些技术在智能手机设备上是不可能的。大多数智能手机制造商都采用混合变焦系统:通常是低变焦级别的宽(W)相机和高变焦级别的电话(T)相机。为了模拟W和T之间的缩放级别,这些系统会对W的图像进行裁剪和数字上采样,从而导致显著的细节损失。在本文中,我们提出了一种在移动设备上实现混合变焦超分辨率的有效系统,该系统捕获一对同步的W和T镜头,并利用机器学习模型将细节从T对齐并传输到W。我们进一步开发了一种自适应混合方法,该方法可考虑景深失配、场景遮挡、流不确定性和对齐误差。为了最大限度地缩小领域差距,我们设计了一个双手机摄像设备,以捕捉真实世界的输入和地面实况,用于监督训练。我们的方法在移动平台上以500毫秒的时间生成1200万像素的图像,并在现实世界场景的广泛评估下与最先进的方法进行了比较。

摘要:三段式
提出问题:
1、单反相机可以通过改变镜头距离或交换镜头类型来实现多个变焦级别。然而,由于空间限制,这些技术在智能手机设备上是不可能的。
2、大多数智能手机制造商都采用混合变焦系统:通常是低变焦级别的宽(W)相机和高变焦级别的电话(T)相机。为了模拟W和T之间的缩放级别,这些系统会对W的图像进行裁剪和数字上采样,从而导致显著的细节损失。
提出解决方案:
1、提出了一种在移动设备上实现混合变焦超分辨率的有效系统,该系统捕获一对同步的W和T镜头,并利用机器学习模型将细节从T对齐并传输到W。
2、开发了一种自适应混合方法,该方法可考虑景深失配、场景遮挡、流不确定性和对齐误差。
3、
为了最大限度地缩小领域差距,我们设计了一个双手机摄像设备,以捕捉真实世界的输入和地面实况,用于监督训练。
效果:我们的方法在移动平台上以500毫秒的时间生成1200万像素的图像,并在现实世界场景的广泛评估下与最先进的方法进行了比较。

问题:
1、改变镜头距离或交换镜头类型来实现多个变焦级别。变焦的目的,变焦主要是改变什么。(改变镜头到感观屏的距离)变焦的目的是改变取景范围,即放大物体,通过三角性相识原理,去改变焦距来改变图像大小。
变焦是指通过调整镜头或透镜的**焦距**来改变摄像或相机的焦点,从而在不改变摄像或相机位置的情况下改变拍摄物体的大小和清晰度。
2、低变焦级别的宽(W)相机和高变焦级别的电话(T)相机,目前相机的怎么成像的
低变焦级别的宽(W)是干嘛用的,高变焦级别的电话(T)相机是干嘛用的,
为了模拟W和T之间的缩放级别,这些系统会对W的图像进行裁剪和数字上采样,从而导致显著的细节损失。
**混合变焦**(一个是黑白,一个是广角和长焦),低变焦级别的宽(W)相机通常指的是广角镜头,可以拍摄更宽广的景物,适合拍摄风景、建筑等。高变焦级别的电话(T)相机通常指的是长焦镜头,可以拍摄更远距离的景物,适合拍摄远处的物体或者拍摄细节。W拍摄的图片包含的物体更多,所以需要裁剪成T一样的大小,也可以上采样,**重点是上采样会导致细节丢失吗?**
3、利用机器学习模型将细节从T对齐并传输到W
这里是通过怎么去实现的,他的目的是干嘛,T的细节不是更加丰富吗?他两者做细节的融合吗?
4、自适应混合方法,怎么混合的,
方法可考虑景深失配、场景遮挡、流不确定性和对齐误差。
景深失配(Depth of Field Mismatch): 指的是摄影中**焦点范围的不匹配**,可能导致某些部分模糊而其他部分清晰。

场景遮挡(Scene Occlusion): 意味着场景中的某些物体被其他物体遮挡,这可能在计算机视觉中是一个处理难题,特别是对于对象检测和识别。(这个确实对于不同焦距的会产生)

流不确定性(Flow Uncertainty): 指的是在光流估计等任务中,由于物体运动复杂或者场景变化剧烈,导致流场估计的不确定性。

对齐误差(Alignment Error): 涉及到图像或数据的对齐问题,即使在处理中可能存在一些错位或偏移,可能对后续的分析或处理产生影响
5、最大限度地缩小**领域差距**,我们设计了一个双手机摄像设备,以捕捉真实世界的输入和地面实况,用于监督训练
这里的监督训练指的是什么,领域差距是什么,
"领域差距" 在混合变焦(Hybrid Zoom)中可能指的是在不同变焦级别(例如,光学变焦和数字变焦)之间产生的图像质量差异。
6、我们的方法在移动平台上以500毫秒的时间生成1200万像素的图像,并在现实世界场景的广泛评估下与最先进的方法进行了比较。

引言:
能够调整视野(FOV)(即放大和缩小)是摄影中最基本的功能之一,尽管它们无处不在,但智能手机仍难以变焦。单反相机使用的变焦镜头需要很大的组装空间,这对于智能手机来说通常是不切实际的。最近的智能手机采用了混合光学变焦机制,该机制由具有不同焦距的相机组成,分别表示为W和T,具有短焦距和长焦距。当用户缩放时,系统对W进行上采样和裁剪,直到FOV被T覆盖。然而,几乎所有形式的上采样(双线性、双三次等)都会导致不同程度的不良质量损失。对更高级别的需求不断增长智能手机的变焦导致T和W之间的焦距比更高,通常为3-5倍,这使得细节丢失成为一个越来越重要的问题。
(介绍我们研究的意义)
单图像超分辨率(SISR)为图像添加了细节,但由于其容易产生虚假内容的幻觉,因此不适合摄影。相反,基于参考的超分辨率(RefSR)旨在传递参考图像的真实细节。已经探索了参考图像的各种来源,例如,在不同时间或相机位置捕获的图像,或者来自网络的类似场景。最近智能手机的硬件设置以W和T捕获的形式提供了更强的信号。因此,最近的工作集中于使用较高的变焦T作为参考,以将真实细节添加回较低的变焦W。(介绍目前主流的工作)
存在商业解决方案[HonorMagic 2023;Triggs 2023],但技术细节和数据集均未公开。学术解决方案【Trinidad等人2019;王等人2021;张等人2022a】提供了对该问题的见解,但对于现实世界的应用来说并不实用。具体而言,这些方法在手机上往往效率低下,容易受到参考图像缺陷的影响,并可能在训练和推理之间引入
领域偏移
。在这项工作中,我们研究了这三个问题,并提出了一种混合变焦超分辨率(HZSR)系统来解决它们。在移动设备上进行高效处理。现有的方法需要大的内存占用(例如,在具有A100 GPU的桌面上,12MP输入的内存不足)和不适合移动电话的长处理时间。我们开发了高效的机器学习(ML)模型。
使用光流将T与W对齐,并将细节融合在使用编码器-解码器网络的像素级。我们的模型经过优化,可以在achip(SoC)框架上的移动系统上高效处理12MP输入,只需500毫秒的额外延迟和300MB的内存占用。
光流(Optical Flow):光流是计算机视觉中用于描述图像中像素在时间上的运动的概念。光流算法可以估计相邻帧之间的像素位移或运动,产生一个描述运动矢量场的输出。这对于捕捉视频中物体的运动非常有用。
适应不完美的参考文献。现有方法[Wang等人2021;Zhang等人2022a]将整个T作为高分辨率参考,导致T
不完美区域的融合质量较差
。具体来说,有两个问题可能会引入不必要的伪影:景深(DoF)的失配以及W和T之间的对准误差。由于DoF较浅,T上的离焦像素可能比W上的像素更模糊,如图所示。2。
在这里插入图片描述
图2。当远摄(T)上的景深(DoF)比广角(W)浅时,在散焦区域中将细节从T转移到W会导致显著的伪影。我们设计了我们的系统,以排除融合过程中的散焦区域,并产生对透镜DoF具有鲁棒性的结果。相比之下,DCSR的结果[Wang等人2021]显示了比鹦鹉和建筑物上的输入W更模糊的细节。

我们提出了一种基于场景深度和光流之间相关性的有效散焦检测算法,以排除融合中的散焦区域。基于散焦图、对准误差、流不确定性和场景遮挡,我们开发了一种自适应混合机制,以生成高质量且无伪影的超分辨率结果。

最大限度地减少与现实世界输入的领域差距。在RefSR中,很难收集完全对齐的W/T地面实况对进行训练。因此,已经探索了两种看似合理但不充分的解决方案:1)使用参考图像T作为训练目标[Wang et al.2021;Zhang et al.2022a],这通常会转移参考中的缺陷或导致网络学习身份映射。2) 学习退化模型以合成来自目标图像的低分辨率输入[Trinidad et al.2019;Zhang et al.2022a],这在训练和推理之间引入了域间隙,并降低了真实世界图像的超分辨率质量。为了避免学习身份映射并最大限度地减少领域差距,我们从安装在摄像设备上的同一型号的第二部智能手机上同步捕获了一个额外的T镜头,并将此捕获作为训练期间的参考(见图6)。在这种设计中,融合模型在训练和推理阶段都将真实的W视为输入,以避免领域差距。此外,从不同设备的T个相机捕获参考和目标,以避免学习身份映射。
与现有的双变焦RefSR数据集显示W和T之间的强时间运动[Wang et al.2021]或仅限于静态场景[Wei et al.2020]不同,我们在动态场景中收集了具有高质量W/T同步的大规模数据集。我们的数据集包括更多样化的捕捉,如肖像、建筑、风景和具有挑战性的场景,如动态物体运动和夜景。我们证明,在现有的双变焦RefSR和我们的数据集上,我们的方法与最先进的方法相比表现良好。

我们的贡献总结如下:
一个基于ML的HZSR系统,在移动设备上高效运行,对真实世界图像中的缺陷具有鲁棒性(第3节)。一种训练策略,使用双手机摄像设备来最大限度地减少域间隙,并避免在RefSR中学习琐碎的映射(第4节)。
一个由150个高分辨率(12MP)的同步W和T镜头组成的数据集,被称为Hzsr数据集,将于1在我们的项目网站上发布,用于未来的研究(第5节)。

2相关工作
基于学习的SISR。
几种方法[Christian Ledig 2017;董等人2014;Kim等人2016;赖等人2017;王等人2018;徐等人2023;张等人2019a、2022b、2018]在过去十年中显示出了有希望的结果。然而,由于姿势严重不适,它们在很大的上采样因子下产生模糊的细节,例如智能手机上的混合变焦所需的2-5倍,或者仅适用于人脸等特定领域[Chan等人2021;Gu等人2020;He等人2022;Menon等人2020]。
RefSR使用互联网图像。RefSR通过将一个或多个[Pesavento等人2021]高分辨率参考作为附加输入,从低分辨率输入输出高分辨率图像。传统的RefSR方法假设参考文献取自互联网[Sun和Hays 2012],或相机模型[Wang et al.2016;Zhang et al.2019b],并专注于改善源和参考文献之间的密集对齐[Huang et al.2022;姜等人2021;夏等人2022;郑等人2018]或对无关参考文献的鲁棒性[Lu et al.2021;Shim等人2020;谢等人2020;杨等人2020;Zhang等人2019b]。相比之下,我们通过捕捉W和T的同步镜头来避免物体运动,从而减轻了对准挑战。

使用辅助摄像头进行RefSR。
RefSR最近的工作【Trinidad等人2019;王等人2021;张等人2022a】使用辅助相机捕捉同一场景的参考图像。由于像素对齐的输入和地面实况图像对不可用,PixelFusionNet[Trinidad等人2019]学习退化模型,从高分辨率参考合成低分辨率输入,并使用逐像素损失,如ℓ1和VGG训练损失。由于在训练和推理时观察到的图像之间的域间隙,这样的模型不能很好地推广到真实世界的输入图像。另一方面,SelfDZSR[张等人2022a]、DCSR[王等人2021]和RefVSR[李等人2022]将参考图像作为训练或微调的目标。我们观察到,这样的训练设置容易出现退化的局部极小值:模型通常会学习恒等映射,并简单地将图像内容从T复制到输出。这会导致严重的错位、颜色偏移和DoF失配,这对于实际摄影来说是不可接受的。在这项工作中,我们捕捉了一个额外的T镜头,以缓解训练中的这些问题。
高效的移动RefSR。
由于使用注意力/变换器[Wang等人2021;Yang等人2020]或深度架构[Zhang等人2022a],现有方法通常具有大的内存占用。即使在具有40GB RAM的NVIDIA A100台式GPU上,它们也会遇到12MP输入分辨率的内存不足(OOM)问题,并且无法在移动设备上运行。相比之下,我们的系统在移动GPU上处理12MP输入仅需要500ms和300MB。我们的系统设计受到了基于参考的人脸去模糊方法[Lai et al.2022]的启发,但我们解决的问题从根本上来说更具挑战性

首先,我们将超分辨率应用于普通图像,而不是聚焦于人脸。我们的系统应该对不同的场景更加稳健,并处理两台相机之间的各种缺陷和不匹配。其次,与可以从合成数据中学习的人脸去模糊模型不同,图像超分辨率模型对训练数据中的域间隙更敏感,并且收集真实的训练数据用于基于参考的SR更具挑战性。因此,我们的自适应混合方法和双手机钻机设置是区分我们工作的关键组成部分[Lai et al.2022]。
一般相关工作从三个方面入手(结合自己的创新点和方法)
最后总结

3混合变焦超分辨率

我们的目标是设计一个高效的系统,可以在移动设备上以交互速率运行。这些限制排除了使用速度慢且内存密集的大型模型。我们的处理流程概述如图3所示。
在这里插入图片描述
图3。系统概述。给定同时捕获的W和T图像,我们裁剪W以匹配T的FOV,通过特征匹配对其进行粗略对齐,并调整T的颜色以匹配W。裁剪的W和调整的T分别称为源和参考。然后,我们估计密集的光流,以将参考对准光源(第3.1节),并生成遮挡掩模。我们的Fusion UNet将源、扭曲的参考和遮挡掩模作为输入进行细节融合(第3.2节)。最后,我们通过自适应混合将融合结果合并回完整的W图像(第3.3节,图4)作为最终输出。

当用户缩放到中等变焦(例如,3-5倍)时,当按下快门按钮时,我们的系统将捕获同步的图像对。我们首先使用关键点匹配将W和T与全局粗对准对准,然后使用光流进行局部密集对准(第3.1节)。然后,我们采用UNet[Roneberger et al.2015]来融合从W裁剪的源图像的亮度通道和从T扭曲的参考(第3.2节)。最后,我们的自适应混合算法(第3.3节和图4)考虑了散焦图,遮挡图、流动不确定性图和对准抑制图,以将融合输出合并回全尺寸W图像。总的来说,我们的系统由轻量级模块组成,使我们的整个系统高效。
3.1图像对齐
粗略对齐。我们首先裁剪W以匹配T的FOV,并使用双三次重采样器对W进行重采样以匹配T(4k×3k)的空间分辨率。然后,我们通过FAST特征关键点匹配[Rosten和Drummond 2006]估计全局2D平移矢量,并调整裁剪的W,表示为𝐼src。我们还通过标准化RGB颜色的平均值和方差将T的颜色与W相匹配[Reinhard等人,2001],以补偿W和T传感器之间的光度差异。颜色调整后的T表示为参考图像𝐼裁判。

**密集排列。**我们使用PWC-Net[Sun等人2018]来估计𝐼src和𝐼请注意,在12MP分辨率下,W和T之间的平均偏移为150像素,这比大多数光流训练数据中的运动幅度大得多[Sun等人2021]。根据12MP图像估计的流量过于嘈杂。相反,我们向下采样𝐼src和𝐼参考384×512来预测光流和上采样流到要扭曲的原始图像分辨率𝐼通过双线性重采样的ref,表示为𝐼参考。在这个尺度上估计的流量更准确,对对准更稳健。

为了满足移动设备上有限的计算预算,我们从原始PWC-Net中删除了DenseNet结构,这将模型大小减少了50%,延迟减少了56%,峰值内存减少了63%。虽然这导致Sintel数据集的流量终点误差(EPE)高出8%,但流量的视觉质量仍然相似。我们还通过前后一致性检查生成了遮挡图Mocc[Alvarez等人,2007]。

3.2图像融合
为了保持W的颜色,我们仅在亮度空间中应用融合。我们构建了一个5级UNet,它将灰度作为输入𝐼src(表示为𝑌src),灰度𝐼ref(表示为𝑌ref)和遮挡掩模Mocc来生成灰度输出图像𝑌融合灰度𝑌融合与的UV通道合并𝐼src并转换回RGB空间作为融合输出图像𝐼融合补充材料中提供了Fusion UNet的详细架构。由于内存占用通常是设备上处理的瓶颈,因此高效对齐和合并网络的一个有用设计原则是减少高分辨率层中的特征通道。因此,我们将我们的系统设计为像素级图像扭曲,而不是特征扭曲[Reda等人2022;特立尼达等人2019],并限制Fusion UNet中编码器通道的数量。

3.3自适应混合
虽然ML模型是对齐和融合图像的强大工具,但W和T之间的不匹配仍然会导致输出中出现可见的伪影。这种失配包括DoF差异、遮挡像素和对准阶段的扭曲伪影。因此,我们制定了一种自适应混合的策略𝑌src和𝑌通过利用从散焦图、遮挡图、流动不确定性图和对准抑制图导出的阿尔法掩模进行融合,如图4所示。我们的最终输出没有令人反感的伪影,并且对W和T之间的像素级一致性的缺陷具有鲁棒性。
**T上的窄DoF。**我们观察到,在移动电话上,T的DoF通常比W窄。这是因为相机的DoF与𝑁 /𝑓 2,其中𝑁 和𝑓 分别表示光圈数和焦距。T和W之间的典型焦距比大于3倍,光圈数比小于2.5倍。补充材料列出了最近旗舰手机的相机规格,以证明这一观察结果的合理性。图图2显示,1)尽管T的采样率较高,但其散焦区域明显比W的散焦区域更模糊;2)包括来自T的散焦细节会导致比W更差的模糊输出。因此,我们需要来自W的宽(W)电话(T)流散焦图→ T散焦图来自相机AF模块的聚焦ROI聚焦中心K-means聚类T散焦地图W图5。如第3.3节所述,在对准阶段使用光流进行有效的散焦图检测。散焦图中的黑/白像素表示聚焦/散焦区域。以将散焦像素排除在融合之外。单图像散焦图估计是一个问题,需要昂贵的ML模型在移动设备上不切实际[Ccun和Pun 2020;Lee等人2019;Tang等人2019;Xin等人2021;赵等人2019]。相反,我们提出了一种有效的算法,该算法重用在对准步骤计算的光流。
**散焦图。**为了估计散焦图,我们需要知道1)相机焦点在哪里,表示为聚焦中心,以及2)每个像素到聚焦中心的相对深度。由于W和T近似正平行,并且光流大小与相机视差成比例,因此与场景深度成比例,我们提出了一种估计散焦图的算法,如图所示。5。首先,我们从相机自动对焦模块中获取感兴趣的聚焦区域(ROI),它指示T上的一个矩形区域,其中大多数像素都在聚焦中。其次,基于双摄像头立体,我们将光流视为深度的代理,并假设同一焦平面上的像素对于静态场景具有相似的流矢量[Szeliski 2022]。为了找到聚焦中心,我们对聚焦ROI内的流向量应用k-均值聚类算法。然后我们选择聚焦中心x𝑓 成为最大集群的中心。估计到x的相对深度𝑓 , 我们计算ℓ2在每个像素与聚焦中心之间的流矢量上的距离,并通过以下步骤获得散焦图:
在这里插入图片描述
哪里𝐹fwd是之间的光流𝐼src和𝐼裁判,𝛾 控制所述距离阈值以容忍聚焦区域,以及𝜎𝑓 控制散焦贴图的平滑度。我们的算法非常高效,在移动设备上只需5毫秒。
遮挡贴图。W和T之间的基线(即,光学中心之间的距离)使得W中被遮挡的像素对T不可见,并且在使用光流扭曲T时导致伪影。为了将这些像素排除在融合之外,我们使用前后流一致性来估计遮挡图[Alvarez等人2007]:
在这里插入图片描述
其中W是双线性翘曲算子,x是源图像上的2D图像坐标。比例因子𝑠 控制遮挡贴图的强度。请注意,我们的遮挡图包括遮挡和不遮挡像素,其中流不一致,通常在运动或对象边界附近。
**流量不确定性图。**由于密集对应关系严重不足,我们增加PWC Net以输出流量不确定性图【Gast和Roth 2018】。不确定性感知PWC Net预测每个像素的流矢量上的多变量拉普拉斯分布,而不是简单的点估计。具体来说,它预测了两个额外的通道,这两个通道决定了中拉普拉斯分布的对数方差𝑥- 和𝑦-方向,表示为Var𝑥 和Var𝑦, 分别地我们通过以下等式将对数方差转换为像素单位:
在这里插入图片描述
对齐拒绝映射。我们基于源和对齐的参考补丁之间的相似性来估计对齐拒绝图以排除错误对齐[Hasinoff等人2016;Wronski等人2019],首先,为了匹配W和T之间的光学分辨率,我们使用双线性大小调整来对扭曲的参考系统进行下采样和上采样𝑌ref基于W和T之间的焦距比,表示为𝑌裁判↓. 然后,对于每个像素及其局部补丁𝑃src(在𝑌src)和𝑃ref(在𝑌裁判↓), 我们减去补片平均值并计算归一化补片差𝑃𝛿 = (𝑃src−𝜇src)−𝑃参考−𝜇参考文献)。每个贴片上的对准抑制图通过以下方式计算:
在这里插入图片描述
哪里𝜎2 src是的方差𝑃src,𝜖0用于容忍源和引用之间的微小差异。在所有实验中,我们将补丁大小设置为16,将步长设置为8。
最终混合。我们将混合遮罩生成为:
在这里插入图片描述
注意,Mdefocus、Mocc和Mflow是在流量推断大小下生成的,Mreject比𝐼src。我们使用双线性上采样将这些掩码升级为𝐼src用于混合。对于T的FOV之外的像素,我们保留W的强度,并在Mblend的边界上应用高斯平滑,以避免融合区域和非融合区域之间的突然过渡。最终输出图像是通过阿尔法混合和“取消剪切”生成的,返回到完整的W图像:
在这里插入图片描述
其中⊙是Hadamard乘积。
在这里插入图片描述
图4。自适应混合。我们使用阿尔法掩模使融合对对准误差和DoF失配具有鲁棒性(第3.3节)。
在这里插入图片描述
图5。如第3.3节所述,在对准阶段使用光流进行有效的散焦图检测。散焦图中的黑/白像素表示聚焦/散焦区域。

4从双摄像头钻机拍摄中学习

合成退化输入用于训练的技术[Trinidad等人2019;王等人2021;张等人2022a]存在合成图像和真实图像之间的领域差距。为了缩小差距,我们在真实世界的图像上训练我们的对齐和融合模型,来源、参考和地面实况图像都是由手机摄像头拍摄的。
在这里插入图片描述
图6。双电话钻机设置。我们在钻机上收集两部智能手机的同步捕获,并使用W𝐿, T𝐿, 和T𝑅 作为源图像、目标图像和参考图像。训练设置确保相机传感器在测试和训练阶段之间保持一致,以消除领域差距。
双摄像头设备。我们设计了一个双手机平台,并排安装两部智能手机,如图6所示。该钻机是3D打印的,设计用于将主设备和辅助设备固定在前后平行的位置和相同的垂直水平面上。我们使用相机应用程序,通过WiFi同步主手机和辅助手机之间的拍摄时间[Ansari等人2019]。在图6中,我们将左侧手机上的摄像头表示为W𝐿 和T𝐿, 右侧手机上的摄像头为W𝑅 和T𝑅. 在训练时间,我们采取W𝐿 和T𝑅 作为源和参考对(即模型的输入)和T𝐿 作为目标图像(即模型输出的地面实况)。我们使用PWC Net来调整W𝐿 和T𝑅 到T𝐿, 使得源图像、参考图像和目标图像都对准到相同的相机视点。由于源图像和参考图像都是扭曲的,我们定义了可用性掩码M valid=1−Plot M occ,其中,Plot M occ表示来自W的遮挡掩码的并集𝐿 → T𝐿 流量和T𝑅 → T𝐿 流,因为这种损失不适用于被遮挡的像素,应该排除在外。注意,我们选择T𝐿 而不是T𝑅 以最小化源和目标之间的扭曲距离。如果我们选择T𝑅 作为目标,两个W𝐿 和T𝐿 必须从左侧智能手机位置弯曲才能与T对齐𝑅 在右侧智能手机上,这将减少用于训练的有效像素数。补充材料中提供了有关我们培训设置的更多详细信息。我们总共收集了8322个三元组来训练我们的Fusion UNet。
在推理时,我们只需要一部智能手机的W和T,(即W𝐿 和T𝐿), 并且T被翘曲以与W对准以进行融合。训练和测试之间的唯一区别在于图像对齐:我们将所有图像对齐到W𝐿 在推理时,但与T对齐𝐿 以最小化翘曲误差。注意翘曲的W𝐿 和翘曲的T𝑅 在训练阶段不是精确的,但足够接近以模拟测试时的真实源和参考图像;它们都是来自相应相机传感器的真实图像。Fusion UNet培训。我们表示目标图像T𝐿 像𝐼目标,并在以下损失的情况下训练我们的Fusion UNet。VGG损失之间的感知损失[Johnson et al.2016]𝐼融合和𝐼目标,通常用于图像恢复:
在这里插入图片描述
注意,可用性掩码Mvalid的大小被调整为对应VGG特征的分辨率。上下文丢失:当我们预先对齐源图像和目标图像时,不对齐仍然存在,并通过生成模糊预测或扭曲伪影来降低模型性能。因此,我们采用上下文损失[Mechrez et al.2018]来更好地了解不一致的训练数据:
在这里插入图片描述
哪里𝐶𝑋 是的VGG特征之间的上下文相似性[Mechrez等人2018]𝐼融合和𝐼目标亮度一致性损失:为了保持W上的低频亮度色调并避免色调偏移,我们应用亮度一致性损耗[Lai et al.2022]:
在这里插入图片描述
其中G表示具有标准偏差的高斯滤波器𝜎 = 10在这项工作中。注意,亮度一致性损失被应用于整个图像,以鼓励模型学习遮挡区域上的同一映射。最终损失Lfinal为:
在这里插入图片描述
我们设置的位置𝑤vgg=1,𝑤cx=0.05,以及𝑤亮度=1。请注意,Lvgg对对齐的像素有效,而Lcx更适用于未对齐的内容。我们的模型需要这两种损失来实现更好的融合质量,而VGG损失的权重远高于上下文损失。
PWC网络培训。PWC Net是在AutoFlow数据集上预先训练的[Sun等人2021]。然而,在AutoFlow训练数据和来自手机的图像之间存在领域差距。因此,我们使用𝐼src和𝐼ref作为输入图像,并使用RAFT生成“伪”地面实况流[Sun等人2022;Teed和Deng 2020]以进一步微调PWC Net。然后可以很好地调整和推广PWC网络,以对齐我们的源图像和参考图像。有关PWC Net微调的效果,请参阅补充材料。

5个实验结果

我们在Hzsr数据集上评估我们的系统,与最近的RefSR方法进行比较,分析系统性能,对关键部件进行消融研究,并在本节中讨论其局限性。补充材料和我们的项目网站提供了更多高分辨率的视觉比较。
5.1 Hybrid Zoom SR(Hzsr)数据集我们使用W和T的智能手机,这在旗舰智能手机中很常见。当变焦水平超过T和W之间的焦距比,即5倍时,混合变焦系统将从W切换到T。就在该变焦比之前,对W进行上采样,以解决传感器分辨率的差异。我们收集了25041对W和T图像对,变焦范围从2倍到5倍不等,以验证所提出的系统。其中,我们选择了150幅具有代表性的图像,涵盖了各种真实世界的场景,包括风景、街景、肖像、动物和低光图像,命名为混合缩放SR(Hzsr)数据集。这150张图片将在我们的项目网站上公开发布。我们在图7中展示了一些横向和中等变焦范围的镜头,这是混合变焦的常见用例。我们的方法能够从T中转移细节,以恢复建筑物的正面,并使字母更清晰。图8在T.DCSR上突出显示具有遮挡和散焦模糊的镜头[Wang et al.2021]经常将不需要的模糊转移到输出图像,导致与输入W图像相比质量下降。相反,我们的方法通过自适应混合保留了W的清晰度和细节。请注意,我们不会试图在散焦和遮挡区域产生幻觉。相反,我们的系统在这些容易出错的区域中稳健地回落到W的像素。请注意,除了我们的方法和DCSR[Wang et al.2021],由于具有40GB内存的A100 GPU上的内存不足错误,所有其他方法都无法处理12MP输入。
5.2与RefSR方法的比较我们将我们的方法与SRNTT[Zhang et al.2019b]、TTSR[Yang et al.2020]、MASA[Lu et al.2021]、C2 Matching[Jiang et al.201]、AMSA[Xia et al.2022]、DCSR[Wang et al.2012a]和SelfDZSR[Zhang等人2022a]进行了比较。我们使用作者网站上的预训练模型,而不进行再训练,因为并非所有实施都支持使用12MP输入进行再训练。
CameraFusion数据集[Wang et al.2021]。该数据集包含从手机收集的146对W和T图像(132对用于训练,14对用于测试)。W和T都被下采样2×至3MP分辨率作为输入,而原始12MP W图像在评估过程中被用作基本事实。因此,CameraFusion数据集可以被视为用于2×SR评估的合成数据集。在图9中,我们的方法输出了这些方法中最清晰的字母。RefSR的其他工作[Wang等人2021;Zhang等人2022a]观察到ℓ1或ℓ2的损失导致最佳的基于参考的度量,但更差的视觉质量。我们还用重新训练我们的模型ℓCameraFusion数据集的训练集上的1个损失,并在表1中报告结果。请注意,我们的结果不受CameraFusion评估设置的青睐,因为我们的方法旨在匹配参考的详细程度。参考可能包含比基本事实更多的细节,例如,在图9中,输入T中的字母比基本事实W更清晰。因此,我们的方法在视觉上更令人愉悦,但在该数据集中具有较低的PSNR或SSIM。
DRealSR数据集[Wei et al.2020]。该数据集包括163对使用4倍变焦镜头从单反的长焦距和短焦距拍摄的图像。图像几乎没有视差,但内容不具有动态主体运动。根据SelfDZSR[Zhang et al.2022a]中的策略,我们分别将短焦距图像和长焦距图像作为输入和参考。PWC Net对参考进行了扭曲[Sun等人2018],以与输入图像对齐,并将其用作评估的基本事实[Zhang等人2022a]。注意,这种基本真实图像仍然与输入不对准,并且可能包含影响PSNR和SSIM度量的扭曲伪像。表1显示,在这种评估设置下,我们的方法优于现有方法。图10显示我们有效地将细节从引用转移到输出,而最先进的方法往往会产生模糊的输出。用户研究。由于我们的Hzsr数据集没有任何定量评估的基本事实,我们进行了一项用户研究,以评估受试者对结果的偏好。我们设计了一个盲用户研究,用户不知道图像是从哪种方法生成的。每个问题都显示了一个图像:输入W、DCSR的输出[Wang et al.2021]和我们系统的输出,并要求用户选择具有最佳细节保真度的图像,如清晰度、清晰度、易读性和纹理。我们在每个用户会话中从Hzsr数据集中随机选择20张图像。我们总共收集了27个用户的反馈(540个图像比较)。总体而言,我们的结果在92.9%的图像中受到青睐,其中DCSR和分别在1.7%和5.4%的图像中选择输入W(见图11)。
工作站上的性能。我们使用具有12核CPU和英伟达A100 GPU(40 GB RAM)的谷歌云平台虚拟机来测试输入图像大小从256×256到12MP(4k×3k)的所有方法。如表2所示,当输入大小大于512×512时,TTSR[杨等人2020]、MASA[鲁等人2021]、C2匹配[姜等人2021],AMSA[夏等人2022]和DCSR[王等人2021]都命中了内存错误。现有的模型都不能直接处理12MP图像,而我们的模型可以在3ms内处理12MP输入图像。请注意,DCSR[Wang等人2021]使用基于补丁的推理来处理高分辨率图像。我们在CameraFusion和Hzsr数据集上采用相同的基于补丁的推理来生成其他比较方法的结果。
设备性能。我们在Google Pixel 7 Pro上实现并测试了我们的系统,并在表3中显示了延迟细分。总延迟开销为521ms。出现内存使用峰值在Fusion UNet推断阶段,与常规的单摄像头使用情况相比,这需要额外的300MB。

5.3消融研究自适应混合面罩。

我们在图12、13、14和15中显示了散焦图、遮挡图、流量不确定性图和对准抑制图的贡献。在图12中没有散焦图M的情况下,12,背景墙变得比输入W中更模糊,因为来自T的散焦区域中的模糊像素被融合。我们的散焦图将背景像素排除在融合之外,并保持清晰度。如果没有图13中的遮挡掩模,受试者边界上的错位会导致融合结果上的可见伪影。如图14所示,流不确定性图识别了对齐不正确的区域,并消除了最终输出中的扭曲伪影。在图15中,抑制图识别未对准的像素并避免重影伪影。
在这里插入图片描述
图12。散焦图的贡献。我们拒绝融合散焦图的白色区域中的像素。使用我们的散焦图,我们在融合输出时保留了散焦(顶部)和聚焦区域(底部)的细节。
在这里插入图片描述
图13。遮挡贴图的贡献。在融合和混合中,我们可以借助遮挡图来减少遮挡边界附近的扭曲伪影。
在这里插入图片描述
图14。流量不确定性图的贡献。光流在物体边界上的鲁棒性通常较低,导致融合后的失真和重影。
在这里插入图片描述
图15。对齐拒绝映射的贡献。我们的对准抑制图能够识别未对准的像素,并从融合输出中去除重影伪影。

培训损失。
我们评估了感知(等式8)、上下文损失(等式9)和亮度一致性损失(等式10)的贡献。
在图16中,VGG损失有助于恢复更清晰的细节和更视觉上令人愉悦的结果。上下文损失[Mechrez等人2018]在(Eq.9)中最小化了语义特征空间的差异,并放松了像素对齐约束,这有助于在双装备数据集上训练我们的Fusion UNet。在图17中,在没有上下文损失的情况下,当W和T没有很好地对准。如图6所示,18,在颜色一致性损失的情况下,我们的模型可以在融合结果上保留W的原始颜色,并对W和T相机之间的自动曝光计量失配具有鲁棒性。融合边界。当将融合输出混合回全W图像时,我们应用高斯平滑来平滑混合边界,以避免突然过渡。在没有边界平滑的情况下,我们可以在图19(b)中看到建筑物和树木的不变细节。虽然边界平滑牺牲了过渡边界周围的一些细节改进,但我们在图19(c)中的结果在混合后看起来更自然。
在这里插入图片描述
图16。VGG损失的有效性。VGG感知损失提高了融合结果的清晰度和易读性。
在这里插入图片描述
图17。上下文损失的有效性。在没有上下文损失的情况下,由于训练数据不正确,结果是模糊的。
在这里插入图片描述
图18。亮度一致性损失的贡献。在没有亮度一致性损失的情况下,我们的融合结果显示熊身上的颜色不一致(请放大查看详细信息)
在这里插入图片描述
图19。边界平滑的有效性。(a)中的黄色虚线显示了融合ROI(即,T的FOV)。通过边界平滑,融合边界看起来更自然、更平滑。
5.4 限制
我们的系统有以下限制:

1)在极低的光照条件下(低于5勒克斯),由于传感器的限制,T图像变得过于嘈杂,如图20所示。2) 如果T和W之间的同步超过极限(例如,在我们的系统中为128ms),则对准将非常具有挑战性,并且我们的系统将跳过融合以防止对准伪影。3) 我们的系统不会增强T的FOV之外的细节,而现有的方法(例如,DCSR[Wang et al.2021])可以通过学习SISR或寻找长程对应关系来改善整个图像的细节,如图21所示。
在这里插入图片描述
图20。低光限制。在极低的光照条件下,T变得过于嘈杂。在这种情况下,我们的融合会将噪声传递到输出图像。因此,我们将我们的系统设计为基于T信噪比的跳过融合。
在这里插入图片描述
图21。对非重叠FOV的限制。对于T FOV之外的像素,我们的方法保持与W相同的值,而DCSR能够增强一些细节。

6结论

在这项工作中,我们提出了一个在手机上实现混合变焦超分辨率的稳健系统。我们开发了用于对齐和融合的高效ML模型,提出了一种自适应混合算法来解决真实世界图像中的缺陷,并设计了一种使用辅助相机的训练策略来最小化域间隙。我们的系统在移动设备上实现了交互速度(500毫秒处理12MP图像),并在公共基准和我们的Hzsr数据集上与最先进的方法具有竞争力。

  • 17
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值