作者:小张Tt | 来源:计算机视觉工坊
在公众号「计算机视觉工坊」后台,回复「原论文」即可获取论文pdf。
多阶段策略在图像修复任务中被广泛应用,虽然基于Transformer的方法在单图像超分辨率任务中表现出高效率,但在立体超分辨率任务中尚未展现出CNN-based方法的显著优势。这可以归因于两个关键因素:首先,当前单图像超分辨率Transformer在该过程中无法利用互补的立体信息;其次,Transformer的性能通常依赖于足够的数据,在常见的立体图像超分辨率算法中缺乏这些数据。为了解决这些问题,作者提出了一种混合Transformer和CNN注意力网络(HTCAN),它利用基于Transformer的网络进行单图像增强和基于CNN的网络进行立体信息融合。此外,作者采用了多块训练策略和更大的窗口尺寸,以激活更多的输入像素进行超分辨率。作者还重新审视了其他高级技术,如数据增强、数据集成和模型集成,以减少过拟合和数据偏差。最后,作者的方法在NTIRE 2023立体图像超分辨率挑战的Track 1中获得了23.90dB的分数,并成为优胜者。
1 前言
立体图像超分辨的最终性能取决于每个视图的特征提取能力和立体信息交换能力。相比于卷积神经网络,变换器拥有更大的感受野和自我关注机制&