HomoFormer: Homogenized Transformer for Image Shadow Removal
这篇论文是来自中国科学技术大学和阿里巴巴集团的研究人员发表于CVPR的关于图像阴影去除的研究🎯。主要解决了现有模型在处理阴影降解的空间非均匀性和多样性时面临的问题,提出了一种全新的策略和模型HomoFormer。下面我将详细为你讲解这篇文章的内容。
1. 引言
图1:阴影非均匀分布带来的挑战示意图。非均匀性对权重共享模型构成了限制,使得它们在不同退化程度的区域间难以找到平衡。随机打乱操作创建了均匀分布,为权重共享的局部自注意力机制奠定了基础。
1.1 研究背景
在自然场景下拍摄的图像中,阴影普遍存在😔。当光源部分或完全被遮挡时,就会产生阴影。阴影不仅会降低图像的视觉质量,还会对后续的各种视觉任务,如目标跟踪、检测、人脸识别等造成严重限制🚫。所以,从有阴影的图像中恢复出干净的图像非常重要🌟。
1.2 研究难点
图像去阴影的主要障碍之一是阴影降解的空间分布不均匀,且阴影的模式多种多样🤯。像卷积神经网络(CNNs)和基于窗口的Transformer等主流模型,由于其固有的权重共享特性,很难对阴影进行建模。它们需要用一组参数来处理复杂程度不同的阴影情况,这往往会导致不理想的结果🙁。
1.3 研究思路
为了克服这一挑战,一种直接的解决办法是选择能够处理空间异质性的先进模型,如普通视觉Transformer,它可以通过全局自注意力机制自适应地处理图像,但计算复杂度较高😕。基于局部窗口的Transformer虽然计算复杂度低,但在处理非均匀阴影降解时存在权重共享的问题。本文则另辟蹊径,探索能否将非均匀分布均匀化,而不是被动地选择更复杂的模型来适应👍。具体来说,通过设计随机打乱操作(random shuffle operation)及其逆操作,将原始非均匀的阴影转换为均匀分布,从而为后续模型处理阴影提供便利🚀。
2. 相关工作

图2: HomoFormer 的整体架构。HomoFormer 的核心是使用随机打乱操作将原始图像空间均匀化,并采用局部自注意力机制对均匀化空间中的交互进行建模。
2.1 图像阴影去除
经典的阴影去除方法常利用各种手工制作的先验知识,如光照、区域、密度或用户交互🧐。近年来,基于深度学习的方法在图像阴影去除方面取得了显著进展🎉。例如,DeshadowNet通过融合多级特征来预测阴影蒙版以去除阴影;Hu等人利用方向感知空间上下文来检测和去除阴影;MaskshadowGAN提出了一种框架,通过估计阴影蒙版并利用其指导阴影生成来建立循环一致性约束等。这些方法展示了深度学习在该领域的多样应用和潜力。
2.2 视觉Transformer
视觉Transformer在视觉领域取得了辉煌成就🌟。ViT首次将图像补丁视为标记序列