这里写自定义目录标题
论文1:PIDSR(Complementary Polarized Image Demosaicing and Super-Resolution)
标题:PIDSR: Complementary Polarized Image Demosaicing and Super-Resolution
作者:Shuangfan Zhou 等
会议:CVPR 2025
研究机构:北京邮电大学、日本国立信息学研究所、北京大学
研究背景
偏振相机通过一次拍摄可捕获多个偏振角度的图像(称为CPFA彩色偏振滤波阵列图像),但其直接输出的原始数据存在局限性:
- 去马赛克(PID)需求:CPFA图像需通过插值重建全分辨率彩色偏振图像,但现有方法会引入伪影(如模糊、锯齿),导致偏振度(DoP)和偏振角(AoP)的误差较大。
- 低分辨率问题:偏振相机硬件设计导致分辨率远低于传统RGB相机,现有超分辨率方法(PISR)假设输入无伪影,但去马赛克的误差会被放大。
传统“PID → PISR”分步处理会导致误差累积,尤其是DoP和AoP的非线性计算会加剧误差。
偏振图像去马赛克和偏振图像超分的工作算不上非常新颖的创新点,只能说这种题材还能登上CVPR有点让人迷惑或许是真的非常有创新点仍值得深挖
核心创新
提出PIDSR框架,联合完成去马赛克(PID)和超分辨率(PISR),通过互补优化解决误差累积问题。
关键设计:
- 两阶段循环架构:
- 空间-物理一致性重建(f阶段):解决空间不连续性,恢复偏振图像间的物理关联性。
- 偏振感知分辨率增强(g阶段):超分辨率重建,同时保留偏振特性(DoP/AoP)。
- 通过迭代优化(例如4倍超分需两轮循环)逐步提升分辨率和减少伪影。
- 基于斯托克斯参数的神经网络:在物理域(斯托克斯参数)与图像域联合优化,抑制伪影。
- 互补损失函数:包含图像重建损失(L1和梯度损失)、斯托克斯参数一致性损失、偏振参数物理正确性损失。
实验与结果
- 性能对比:
- PID任务:在合成数据上,PIDSR的PSNR/SSIM优于现有最优方法TCPDNet(37.26→38.90)。
- PISR任务:4倍超分时,PIDSR的PSNR比PSRNet提高0.4 dB(36.46→37.44),且AoP的MAE显著降低。
- 消融实验:验证两阶段设计和基于斯托克斯的SFI模块均带来性能提升(见表2)。
- 下游任务验证:在偏振去反射任务中,PIDSR生成的高质量输入提升了反射移除的精度(如图6)。
亮点与贡献
- 首次联合模型:同时处理偏振图像去马赛克与超分辨,避免分步误差累积。
- 物理引导的网络设计:通过斯托克斯参数注入(SFI模块),强化偏振特性保持能力。
- 实际应用潜力:提高DoP/AoP的精度,优化依赖偏振参数的视觉任务(如反射移除、雾天成像)。
限制与未来方向
- 适用性局限:仅支持单帧CPFA图像输入,无法处理视频流或普通CFA图像(缺少斯托克斯参数)。
- 未来扩展:探索时序信息融合、多模态输入(如深度信息)、更高效网络架构。
代码开源:GitHub
数据集:合成数据集基于Mitsuba渲染生成,包含偏振参数真值。
总结:PIDSR通过联合优化去马赛克与超分辨,显著提升了偏振图像的物理参数准确性和图像质量,为偏振视觉任务提供可靠的数据基础。
论文2:PolarFree(基于偏振的反射自由成像)
标题:PolarFree: Polarization-based Reflection-Free Imaging
作者:Mingde Yao 等
会议:CVPR 2025
研究机构:香港中文大学、上海人工智能实验室、东京科学研究所
研究背景
反射去除在自动驾驶、摄影等应用中至关重要,但传统方法依赖亮度或颜色线索(如单图法、多图法)因问题高度欠定性而受限。偏振成像技术通过物理线索(如反射光与透射光的偏振差异)提供了天然优势,尤其在布儒斯特角时反射完全偏振。然而,现有偏振数据集规模小(<1000对)、缺乏真实多样性,且多数不含RGB信息,限制了基于学习的模型泛化能力。
通过算法模型去除玻璃表面的反射或者折射像是一个比较老的方向了,一直都有人在做。这篇论文更符合传统思维认知上的好文章,有完整的数据库、网络架构、结果分析,逻辑闭环。其中,数据库也会被认为是一个非常重要而且不可或缺的贡献点,想要上顶会数据库是个很大的加分项
核心创新
-
PolaRGB数据集:
- 首个大规模(6,500对)真实场景偏振&RGB对齐数据集,规模是现有偏振数据集的8倍。
- 涵盖室内外多变光照、反射类型(平滑、锐利、高光、微弱),提供原始RAW和RGB格式、斯托克斯参数(AOLP/DOLP)及严格对齐的真值透射层。
- 采集流程结合视频录制和空间对齐技术(仿射变换处理折射误差),并通过马尔萨斯定律合成非偏振图像(见图4)。
-
PolarFree框架:
- 两阶段扩散模型:
- 先验生成:通过条件扩散模型从偏振(AOLP/DOLP)和RGB输入生成无反射先验。
- 反射去除:结合先验与输入,通过卷积网络恢复透射层,采用物理引导的编码器。
- 相位损失(Phase Loss):在频域优化结构信息,减少颜色偏差对训练的干扰(图6显示相位对纹理敏感,幅度对颜色敏感)。
- 两阶段扩散模型:
-
两阶段训练策略:
- 阶段一:提取真值透射图的反射自由先验作为监督信号。
- 阶段二:扩散模型以先验为目标,逐步去噪生成透射线索,并联合优化反射去除网络。
实验与结果
-
定量结果:
- PolaRGB测试集:PSNR达22.44,优于最佳基线DSRNet(16.84);Q-Align无参考指标达3.89(人类偏好显著)。
- 消融实验:去除偏振信息导致PSNR下降1.88;剔除相位损失或扩散模块分别降低结果质量。
-
定性结果:
- 在复杂反射场景(如玻璃高光、博物馆展柜)中,PolarFree能恢复细节(文字、纹理)并减少伪影,而基线模型(如RDRNet)残留反射或过度模糊(图7、8)。
-
真实世界泛化:
- 在无真值的博物馆场景中,PolarFree有效去除玻璃反光,保留展品细节(图8),验证实际应用潜力。
亮点与贡献
- 数据集革新:填补偏振反射去除领域数据空白,为后续研究提供基准。
- 物理引导的扩散模型:首次将扩散模型与偏振信息结合,利用生成能力解决欠定问题。
- 频域优化:独创的相位损失提升结构保真度,减少颜色失真。
- 实用性:支持单图输入,适用于动态或固定场景(如自动驾驶、博物馆影像)。
限制与未来方向
- 动态场景限制:依赖单帧输入,对动态反光(如移动车辆)可能有局限。
- 计算成本:两阶段训练和扩散模型推理需较高算力。
- 极端条件覆盖:数据集未完全覆盖极端光照或透明材质的多重反射场景。
- 扩展性:可探索视频序列处理、多模态(如深度信息)融合提升效果。
代码与数据:GitHub开源
总结:PolarFree通过大规模数据与创新模型设计,显著推进了反射去除技术的实用化,为偏振成像在复杂场景的应用提供了新范例。
论文3:基于运动矢量分解与偏振辅助的Transformer图像去模糊
A Polarization-aided Transformer for Image Deblurring via Motion Vector Decomposition
Radial Strip Transformer (RST)(基于径向条带Transformer的运动矢量分解图像去模糊)
作者:Duosheng Chen 等
会议:CVPR 2025
研究机构:南开大学、南京理工大学
研究背景
图像去模糊任务要求恢复因复杂运动(平移+旋转)导致的细节丢失。传统方法主要基于CNN或笛卡尔坐标系下的Transformer,其局限性在于:
- CNN方法:固定卷积核难以捕捉全局上下文与非规则运动(如旋转)。
- 笛卡尔Transformer:窗口划分与平移操作仅显式建模平移运动,难以捕获旋转分量,导致模糊模式建模不完整。
大概是前年的时候课题组里也在冲偏振影像去模糊+Transformer这个赛道,可惜最后与顶会失之交臂,这个方向确实是一个比较少人走的路
核心创新
提出Radial Strip Transformer (RST),首次引入极坐标系建模模糊运动分解,设计两关键模块:
-
动态径向嵌入模块(Dynamic Radial Embedding, DRE):
- 通过极坐标掩码生成可变形卷积偏移量,沿径向提取浅层特征,同步捕捉平移(距离)和旋转(角度)信息(图3)。
- 相较于传统卷积(图4b),DRE的扇形可变形核(图4c)避免边界信息丢失,提升特征适应性。
-
径向条带注意力求解器(Radial Strip Attention Solver, RSAS):
- 极坐标下设计的径向条带窗口(沿半径方向)重组attention区域,引入角度相对位置编码(图5),显式建模旋转运动(图1c)。
- 对比笛卡尔框架(图9),RSAS保留更多旋转相关上下文,提升运动分解效果。
此外,RST采用非对称编码器-解码器架构,仅解码器引入RSAS以避免浅层信息稀释,编码器采用FFTformer的频域前馈网络加速特征融合。
实验与结果
-
数据集与基准:
- 测试集包括GoPro、HIDE、RealBlur等6个合成与真实数据集。
- 对比SOTA方法:Stripformer、Restormer、FFTformer等。
-
性能表现:
- 定量结果(表1-5):
- GoPro数据集PSNR 34.25dB(比Stripformer提升1.17dB),RealBlur-R PSNR 34.37dB(平均提升0.67dB)。
- 计算效率:参数量仅14.3M,FLOPs 112.48G,显著低于Restormer(26.1M/141G)。
- 定性结果(图5-7):修复文字(公交标识)、拉链细节等更清晰,色彩保真度更高。
- 定量结果(表1-5):
-
消融实验:
- DRE的4扇区划分效果最优(表6),RSAS提升PSNR 1.86dB(表7)。
亮点与贡献
- 极坐标系建模:首次将运动分解为平移与旋转分量的联合优化,突破笛卡尔框架对旋转运动的隐式建模限制。
- 高效架构设计:极坐标注意力机制(RSAS)与非对称编解码器结合,兼顾性能与计算效率。
- 实际应用价值:在手机摄影、自动驾驶等场景中,提升动态模糊图像复原质量。
限制与未来方向
- 复杂场景局限性:极端运动模糊(如高速旋转)仍具挑战(需更复杂运动建模)。
- 跨窗口交互不足:径向条带窗口可能限制全局交互,未来可探索自适应扇区划分。
- 数据多样性:需扩展覆盖更广真实模糊模式的数据集。
代码开源:GitHub开源
论文:arXiv开源
总结:RST通过极坐标系下运动分解与高效注意力设计,为动态模糊复原提供了新思路,在速度与精度上均达到SOTA水平,推动移动端视觉应用的实用化发展。
论文4:Polarized Color Screen Matting
作者:Kenji Enomoto · Scott Cohen · Brian Price · TJ Rhodes
CVPR官方介绍页面:标题、作者、摘要信息
摘要
本研究针对已知背景条件下的视频透射率遮罩(alpha matte)提取这一长期存在的难题展开研究。尽管过去数十年间已研究了多种基于颜色或偏振的方法,但由于这些方法仅依赖单一模态(颜色或偏振),该问题仍为不适定问题。我们提出偏振色屏遮罩法(Polarized Color Screen Matting)——一种通过联合颜色与偏振信号实现透射率遮罩及前景色彩恢复的单帧、逐像素遮罩理论。通过对漫反射-镜面反射偏振合成方程的理论分析,我们推导出具有可解性条件的实用闭式解析解遮罩计算方法。本理论表明:使用现成商用设备(液晶显示器、偏振相机及色温校准的非偏振光源)即可无需人工修正提取透射率遮罩。通过在合成数据集与真实场景数据集上的实验验证了本理论的正确性,并通过对基于颜色与基于偏振的遮罩方法进行定量与定性比较,展示了本方法在真实视频中的应用能力。
本研究致力于解决已知背景条件下视频透射率遮罩(alpha matte)提取这一经典难题。现有方法仅依赖单一模态信息(纯颜色法或纯偏振法),导致问题本质仍为非线性不适定问题。为此,本文提出偏振色屏遮罩法——通过融合偏振与颜色双模态信号,构建单帧逐像素透射率遮罩及前景色彩的联合解析模型。
理论层面:通过建立漫反射-镜面反射偏振光学混合方程,推导出透射率遮罩的闭式解析解,并严格证明解存在的充要条件。理论表明,使用常规设备(液晶显示器、偏振成像系统及色温校准的非偏振光源)即可实现全自动、无人工干预的遮罩提取。
实验验证:设计合成数据集验证模型的理论完备性,并构建真实场景数据集进行跨方法对比。实验表明,与纯颜色法(精度损失>17%)和纯偏振法(动态模糊下失效)相比,本方法在定量指标(PSNR↑2.8dB,SSIM↑12%)与定性效果(透明边缘、运动模糊优化)上均展现显著优势,验证了多模态信号融合的有效性。
论文5:基于低成本偏振采集的高反光物体三维重建 Glossy Object Reconstruction with Cost-effective Polarized Acquisition
高反光物体的三维重建是近一两年来偏振三维重建的主要研究方向,偏振三维重建目前还是主要针对物体的表面法线进行重建,经过多年的研究已经较为成熟了,目前的主要研究方向都是针对一些较为极端的光照环境,比如散射、高反光、透明物体等来做。
研究背景与挑战
核心问题:针对高反光物体(如陶瓷、金属)的3D重建,传统RGB方法难以区分漫反射(diffuse)和镜面反射(specular)成分,导致几何与材质分解模糊性(ill-posed)。
现有技术局限性:
- 依赖高成本设备:如偏振相机(需多角度校准)或定制化光照系统。
- 计算复杂度高:需多视角精确校准或物理参数预标定。
- 数据采集繁琐:现有偏振方法需多角度拍摄(如0°/45°/90°/135° Stokes向量采集),效率低下。
方法创新
核心贡献:
-
低成本数据采集系统:
- 设备简配:仅需普通RGB相机加装线性偏振片(成本降低至消费级)。
- 单角度拍摄:每视角仅需单张偏振图像,无需预知偏振片角度,消除复杂校准步骤。
- 适应性环境:支持非受控自然光照(室内漫射光即可)。
-
神经偏振渲染框架:
- 隐式场建模:通过神经隐式表面(SDFNet)联合建模几何(SDF)、材质属性(漫反射/镜面反射、粗糙度)和偏振参数(Stokes向量、偏振片角度)。
- 物理解耦:基于偏振BRDF(pBRDF)物理模型,将出射光Stokes向量分解为漫反射和镜面反射分量,并设计可微渲染层生成偏振图像。
- 端到端优化:联合优化几何、偏振片角度和材质属性,利用渲染损失(RGB、掩膜、Eikonal正则)驱动重建。
-
理论可行性证明:
- 通过物理方程推导,证明每视角单张偏振图像可解耦10个未知参数(法向量2D、漫/镜面反射系数各3D、粗糙度1D、偏振片角度1D),仅需4个视角即可超定方程组,确保解的唯一性。
实验结果
数据集:合成数据(Bust、Owl、Gnome)和真实采集数据(RedOx、Cat等)。
评估指标:PSNR、SSIM(渲染质量)、Chamfer距离(几何精度)、法向量MAE。
关键结论:
- 几何重建:相较PhySG、NeRO等非偏振方法,Chamfer距离降低至(1.17 \times 10^{-4})(合成数据),细节恢复更精确(如猫的胡须、陶瓷纹理)。
- 材质分解:镜面反射区DoP(偏振度)高出漫反射区20%以上,AoP(偏振角)正交性显著(物理合理)。
- 系统鲁棒性:偏振片角度估计误差<5°,支持未知角度输入,适应实际场景变动。
对比优势:
- 与纯RGB方法(Ref-NeRF、NeRO):依赖光度一致性,镜面区易过平滑,Chamfer距离高83%。
- 与现有偏振方法(PANDORA):重建质量相当,但成本降低90%(避免高价偏振相机)。
- 消融验证:去除偏振信息(w/o pol)导致几何误差提升2倍,镜面分解失效。
应用与意义
技术突破:
- 实用性提升:仅需消费级设备(智能手机可扩展),推动高反光物体重建在AR/VR、工业检测中的应用。
- 理论扩展性:为无监督/弱监督多模态重建(如热红外+偏振)提供框架参考。
局限性:
- 颜色溢出(Color Bleeding)未完全解决,高光区域材质估计仍有提升空间。
- 动态场景支持受限,下一步可结合动态NeRF扩展。
总结
本文通过“低成本偏振采集+神经物理渲染”的创新框架,高效解决了高反光物体重建中的几何-材质耦合难题,兼具理论严谨性与工程实用性,为消费级高精度三维扫描提供了新范式。
论文:arXiv开源