xinxiangwangzhi_-CSDN博客

原创立体匹配--Fast-FoundationStereo

Fast-FoundationStereo: Real-Time Zero-Shot Stereo Matching 论文总结一句话总结0. 论文概述（Executive Summary）核心问题提出的解决方案核心成果1. 问题背景与动机1.1 立体匹配的历史与现状1.2 两条分裂的研究路径1.3 实际应用需求2. 相关工作与创新关联2.1 前人工作综述2.1.1 可泛化立体匹配（Generalizable Stereo Matching）

2026-05-02 22:54:39 412

原创立体匹配--foundation stereo总结(2025)

FoundationStereo: Zero-Shot Stereo Matching 论文总结📝 文章基本信息🎯 一句话总结0. 论文概述 (Executive Summary)核心问题关键观察与创新论文的三大贡献与相关工作的关系1. 问题背景与动机1.1 立体匹配的现状与困境1.2 为什么选择立体匹配作为研究对象？2. 相关工作与创新关联2.1 前人工作综述2.1.1 深度立体匹配方法分类2.1.2 域泛化与零样本学习2.1.3 训练数据2.2 存在的问题与不足2.2.1 网络架构层面。

2026-04-12 23:46:16 451

原创 raft系列总结

RAFT打破了粗到精范式的统治，建立了"构建全对相关体 → 轻量级GRU迭代更新"的新范式将这一范式成功迁移到立体匹配，利用极线约束降低计算量，并通过多级GRU增强信息传播CREStereo关注"实用性"，针对高分辨率图像、非理想校正和困难场景提出了层级化级联和自适应相关的完整解决方案首次将代价聚合和迭代优化这两大"对立"范式进行了有机融合，以极小的额外代价获得了显著的精度和效率提升从信息频率的角度审视了GRU更新算子的固有缺陷，提出了通用的自适应频率选择机制，同时在四个主流榜单上取得第一。

2026-04-08 23:52:14 399

原创立体匹配--SelectiveStereo(2024)

论文标题（选择性立体匹配：自适应频率信息选择用于立体匹配）作者信息作者角色机构第一作者第一作者Hao Jia作者Xin Yang†通讯作者发表信息提交平台：arXiv论文ID提交日期：2024年3月1日预印本发布日期代码开源📌GitHub仓库本论文提出了一个新颖的选择性循环单元（SRU）和上下文空间注意力模块（CSA），通过自适应融合多频率的隐藏视差信息来改进迭代立体匹配方法，在多个基准测试中排名第一。

2026-04-08 23:50:19 411

原创立体匹配--GwcNet（2019）

论文名称作者机构：香港中文大学、商汤科技会议：CVPR 2019代码一句话总结GwcNet通过分组相关体积和改进的3D聚合模块，在保持高精度的同时实现了计算高效，特别是在资源受限场景下相比前人工作有显著优势。本论文针对立体匹配中匹配成本计算的信息丢失问题，提出了**Group-wise Correlation（分组相关性）**方法。传统的全相关方法只为每个视差级别生成单通道相关图，会丢失大量信息；而级联方法虽然信息完整但需要大量参数从零学习相似度度量。

2026-04-04 16:27:53 341

原创立体匹配--PSMNet(2018)

基本信息：论文标题作者单位发表时间：2018年3月发表平台通过引入空间金字塔池化（SPP）模块和堆叠沙漏式三维CNN，PSMNet有效利用全局上下文信息，在立体视觉中的歧义区域（遮挡、无纹理区域）实现更准确的视差估计。本论文提出PSMNet，一个针对立体匹配问题的端到端深度学习框架。问题核心在于：基于补丁的孪生网络（Patch-based Siamese Networks）难以处理有歧义的区域（遮挡、无纹理、反射面等）的视差估计。

2026-04-04 16:10:23 410

原创立体匹配--IGEV-Stereo 论文总结(2023)

华中科技大学电子信息与通信学院：CVPR 2023。

2026-04-01 22:40:06 439

原创立体匹配--CREStereo 论文总结(2022)

设计解决的问题核心机制AGCL 局部特征注意力首级缺乏全局上下文LoFTR 风格自/交叉注意力 + 位置编码2D-1D 交替搜索非理想校正的垂直偏移交替使用水平 1D 和二维网格搜索可形变搜索窗口遮挡/无纹理区域匹配歧义GRU 输出偏移调整搜索位置群组相关特征通道信息利用不足分组计算相关后拼接级联循环网络鲁棒性与细节难以兼顾粗到精三级层级式迭代更新堆叠级联（推理）高分辨率输入的感受野不足图像金字塔 + 多阶段堆叠推理新合成数据集合成到真实的泛化性不足。

2026-04-01 22:38:28 393

原创立体匹配--GCNet(2017)

这是一个重要的设计细节去掉最后一层的BN是为了允许网络自由学习代价值的缩放比例即后续softmax的"温度"参数使Soft argmin的概率分布趋向单峰，避免多峰分布导致的估计偏差对代价体中每个像素位置的代价向量cdd0Dmaxcdd0Dmaxd∑d0Dmaxd⋅σ−cdd:=d0∑Dmaxd⋅σ−cdσ⋅σ⋅为softmax函数−cd-c_d−cd。

2026-03-30 23:16:33 394

原创立体匹配--Dispnet(2016)

方面要点核心创新首次将端到端CNN应用于视差估计，替代传统多阶段流水线架构基础编码器-解码器 + 跳跃连接（继承自FlowNet）关键改进1D相关层、解码器额外卷积、渐进式损失调度速度优势比当时SOTA快约1000倍（0.06s/帧）训练数据合成数据（FlyingThings3D）足以训练出泛化性好的网络局限性最终输出仍为1/4分辨率；微调后泛化能力下降；边缘处不够锐利历史地位端到端视差估计的开创者，后续所有深度学习视差方法的基础。

2026-03-30 22:45:21 374

原创立体匹配--raft-stereo(2021)

计算复杂度模型对于NNNN×64164×C84NCN×64164×C84NC10×64C20×16C30×4C940C10×64C20×16C30×4C940C相对节省：加速比84NC940C≈84×32940≈2.86\text{加速比} = \frac{84NC}{940C} \approx \frac{84 \times 32}{940} \approx 2.86加速比940。

2026-03-22 20:27:18 453

原创 RAFT光流论文总结

min⁡fEdataI1I2f⏟数据项：视觉相似性Esmoothf⏟正则化项：运动合理性\min_{f} \underbrace{E_{data}(I_1, I_2, f)}_{\text{数据项：视觉相似性}} + \underbrace{E_{smooth}(f)}_{\text{正则化项：运动合理性}}fmin数据项：视觉相似性EdataI1I2f正则化项：运动合理性Esmoothf。

2026-03-16 23:32:20 481

原创立体匹配--深度学习方法综述(2)

2010年代末：CNN-based代价体聚合（2D/3D架构）↓2020年初：NAS自动化架构搜索↓2021年：RAFT-Stereo引入迭代优化范式 [游戏改变者]↓2021-2022：Vision Transformer应用于立体匹配↓2022-2024：多模态融合（事件、热成像、结构光等）↓2024+：基础模型探索，效率与精度并重。

2026-03-08 21:23:44 490

原创立体匹配--深度学习方法综述（1）

机器学习（尤其深度学习）与双目立体视觉之间存在双向协同关系。在过去十年里，深度学习既通过替换或增强传统立体匹配 pipeline 的步骤（matching cost、aggregation、优化、refinement）来提升 stereo 性能，又逐步发展为端到端的 2D / 3D 网络结构，显著推动精度提升。与此同时，立体几何也被反向利用为单目深度估计的自监督或伪标签来源（view synthesis、proxy labels、distillation），促成了单目深度估计的快速发展。

2026-03-05 23:25:55 532

原创立体匹配--Fast Cost-Volume Filtering for Visual Correspondence and Beyond

总结：这篇文章从现在来看没有特别多的创新点，把代价聚合变成了引导滤波，引导滤波与窗口大小无关，所以速度和效果都比较好，在2011年的局部算法中排名第1.虽然文章中速度可以，但是匹配最耗时的地方在于代价空间，文中没有对这个地方改进。至于文中说的许多计算机视觉任务都可以归结为标记问题，可能是立意很高但文章实际内容并没有和这一概念强相关。

2026-02-27 23:25:45 650

原创立体匹配--Accurate Image-guided Stereo Matching with Efficient Matching Cost and Disparity Refinement

总结：在2015年Middlebury排名第一的方法。主要核心点有三个：1利用滤波得到引导图像，2利用引导图像结合多个代价构建联合代价，3对异常匹配点进行多步骤细化。总体来说文章没有特别突出的贡献。

2026-02-26 23:12:34 614

原创立体匹配--Cross-Scale Cost Aggregation for Stereo Matching

人类通过多个尺度处理立体对应。然而，这种生物启发被用于密集立体对应的最先进的代价聚合方法所忽略。本文提出了一种通用的跨尺度代价聚合框架，允许在代价聚合中进行多尺度交互。我们首先从一个统一的优化角度重新表述代价聚合，并表明不同的代价聚合方法本质上在于相似性核的选择不同。然后，将尺度间正则项引入优化中，求解这个新的优化问题即得到所提出的框架。由于正则化项独立于相似性核，各种代价聚合方法都可以集成到所提出的通用框架中。

2026-02-24 22:30:32 649

原创立体匹配--Full-Image Guided Filtering for Fast Stereo Matching

提出了一种新的全图像引导滤波方法。与许多现有的邻域滤波器不同，所提出的滤波方法使用了所有的输入元素。此外，还提出了一种称为权重传播的新方案来计算支持权重。它满足了边缘保持和低复杂度的要求。将其应用于局部立体匹配框架中的代价空间滤波中。采用本文提出的滤波方法的算法是目前Middlebury平台上速度和精度最好的局部算法之一。

2026-02-09 21:46:46 627

原创立体匹配--Fast stereo matching using adaptive guided filtering

首先，提出了一种新的代价聚合滤波方法。引入了一个新的概念"两级局部自适应"来指导所提出的滤波方法。其次，提出了一种新颖的后处理方法来同时处理遮挡和无纹理区域。第三，提出了一种在GPU上高效计算一幅积分图像的并行算法，加速了整个代价空间滤波过程。整个立体匹配算法产生了最先进的结果。在提交时，它在Middlebury立体评测基准上的约152个算法中排名第10，在所有局部方法中排名第1。

2026-02-09 21:41:46 666

原创立体匹配中的代价函数总结

在双目立体视觉中，（CostFunction）用于衡量左右图像中两个像素点是否可能为对应点。代价越小，表示匹配可能性越高。代价函数是立体匹配流程中的第一步（匹配代价计算），对最终视差图质量有决定性影响。

2026-01-18 17:00:31 1064

原创立体视觉资料汇总

Stereo Vision: Algorithms and Applications（217页ppt）计算机双目立体视觉（高宏伟）计算机视觉中的多视图几何学视觉slam14讲计算机视觉中的数学方法计算机视觉：算法与应用guide-to-3d-vision-computation-geometric-analysis-and-implementationmulti-view-stereo-a-tutorialAn Invitation to 3-D Vision课程：https://web

2026-01-18 16:49:17 611

原创多视图几何--密集匹配SURE（tsgm）

《SURE: PHOTOGRAMMETRIC SURFACE RECONSTRUCTION FROM IMAGERY》本文提出了一种多视图立体视觉( MVS )方法，用于生成稠密和精确的三维点云。该方法基于半全局匹配( Semi-Global Matching，SGM )方法，然后通过一个融合步骤来融合单个立体模型之间的冗余深度估计。我们针对SGM方法提出了一种由粗到精的分层解决方案，其中低分辨率金字塔的匹配结果用于限制高分辨率金字塔的视差搜索范围。通过大幅面航空摄影和近景影像，我们证明了在保持视差估计质

2026-01-15 22:07:22 877

原创单目散斑三维成像原理

单目加上散斑投影也可以生成三维点，这里必须有一张参考图像，一张真实物体的照片，可以利用数字图像相关DIC技术获取相对位移，也可以利用图像相似性匹配得到绝对坐标。

2026-01-12 22:04:07 191

原创多视图几何--密集匹配--ADCensus

使用AD-Census进行初始代价计算，使用动态交叉区域聚合，使用扫描线优化，对错误视差进行消除，并对视差进行优化，所有的步骤都适合GPU并行，速度和精度在middlebury都达到了最优。

2026-01-11 15:44:55 1009

原创多视图几何--密集匹配--ACMM

我们首先介绍了我们的自适应棋盘格采样和多假设联合视图选择( ACMH )的基本多视图立体方法。对于低纹理区域的深度估计，我们进一步提出将ACMH与多尺度几何一致性引导( ACMM )相结合，以获得低纹理区域在更粗尺度下的可靠深度估计，并保证其可以传播到更精细的尺度。此外，为了纠正由较粗尺度传播的错误估计，我们提出了一种新的细节恢复器。

2026-01-04 22:35:06 635

原创多视图几何--立体匹配--Gipuma

主要贡献：1、对patchmatchstereo进行改进，使其可以在GPU并行化，计算时间与图像大小成线性关系，与并行线程数成反比2、对patchmatch进行多视图聚合，可以生成更精确的深度图本文主要有两个贡献：1、将像素分为红黑两组，像素视差参数的更新来源于另外一组近邻像素，以此达到并行的效果。2、将patchmatchstereo拓展到多视图领域，这里的主要创新点在于：观察patchmatchstereo代价函数公式1，2这里面并不包含视差，而是需要同名点即可。

2025-10-19 21:20:48 494

原创多视图几何--密集匹配--patchmatchstereo翻译

常见的局部的立体匹配方法是直接使用整数视差计算的，并且假定窗口是垂直于相机Z轴的（平行窗口），此窗口内的视差恒定。为了克服以上两个问题，使用倾斜支持窗口来获取每个点的视差平面。该方法的主要挑战是在所有可能的平面中找到一个像素的最优三维平面，其解的空间数量是无限的（在无限种可能中寻找一个正确结果是非常困难的）。解决该问题的一个理想算法是PatchMatch ，我们将其扩展为根据平面寻找一个近似最近邻。

2025-10-12 23:32:46 948

原创多视图几何--密集匹配--视差平面推导

首先，切平面的数学表达式为：nTX+d=0n^T X+d=0nTX+d=0推理过程如下：nT(X−X0)=0,X0=−d⋅n⇓nTX−nTX0=0⇓nTX+nTn⋅d=0⇓nTX+d=0\begin{aligned}& n^T\left(X-X_0\right)=0, X_0=-d \cdot n \\& \Downarrow \\& n^T X-n^T X_0=0 \\& \Downarrow \\& n^T X+n^T n \cdot d=0 \\& \Downarrow \\& n

2025-10-12 11:46:32 695

原创 patchmatch翻译总结

PatchMatch是一种随机搜索算法，用于高效计算两幅图像之间密集的近似最近邻域。它的革命性在于，它通过巧妙的随机性和传播机制，在巨大的搜索空间中以极小的计算量获得高质量的结果，其速度比传统的暴力搜索快数个数量级。PatchMatch算法的精髓在于“随机初始化提供火种，传播步骤形成燎原之势，随机搜索步骤则负责局部精炼和突破”。它将计算机科学中经典的“随机化”与“局部搜索”思想相结合，以一种极其巧妙的方式解决了高维空间中的密集匹配问题，成为了计算机视觉和图形学领域一个里程碑式的算法。

2025-10-11 22:58:11 1010

原创多视图几何--密集匹配--sgm翻译

本文介绍了半全局匹配（SGM）立体方法。它使用基于互信息（MI）的像素集的匹配代价来补偿输入图像的辐射差异。像素匹配由平滑度约束支持，该约束通常表示为全局成本函数。SGM通过从各个方向进行路径优化来执行快速逼近。讨论还涉及遮挡检测、子像素细化和多基线匹配。此外，还介绍了用于删除异常值、从结构化环境的特定问题中恢复以及空洞插值的后处理步骤。最后，提出了处理几乎任意大图像的策略以及使用正交投影融合视差图像的策略。

2025-10-10 01:28:23 525

转载多视图几何--密集匹配--PatchMatchStereo

PatchMatchStereo是Michael Bleyer等在2011年发表于British Machine Vision Conference（BMVC）上的一篇双目立体匹配算法文章，非常经典。倾斜支持窗的思路打破传统固定窗口式局部匹配的思维桎梏，在Middlebury数据集上获得非常好的匹配效果，一段时间内高居排行榜第一名。更难能可贵的是，它和SGM一样数据泛化能力出色，对大部分数据都能取得不错的结果，所以也被很多商业软件所实现，是真正能够产品化的算法。

2025-08-03 22:02:12 174

原创语义分割--deeplabV3+

Encoder：DCNN就是主干网络，例如resnet，Xception，MobileNet这些（主干网络也要使用空洞卷积），对dcnn的结果利用ASPP（Atrous Spatial Pyramid Pooling）ASPP也就是利用不能rate的空洞卷积，并把ASPP的结果合并，经过1。1卷积，并对encoder的高级特征进行4倍上采样，将二者合并，再经过3*3卷积和4倍上采样对像素进行分类。现在来看deeplabV3+的结构还是很简单的。Decoder：对DCNN的低层次结果进行1。

2025-08-03 21:59:41 508

转载空洞卷积原理

首先，来谈谈我是如何一步步接触Dilated Convolution （后文都叫空洞卷积了）的。在一次机缘巧合下，我恰巧瞅到师姐的论文，上面就闪晃晃的写有空洞卷积四个大字，我当时想的是这是什么玩意，听名字有点高大上，于是课下就搜了搜，发现还是挺有意思的，但也一直没有详细的看过，只能说有一个大致的了解，知道这家伙是干什么的。

2025-08-03 21:57:26 297

原创深度学习中卷积与互相关

1. 互相关运算 (cross-correlation)2. 卷积运算 (convolution)卷积公式：数学定义的卷积运算：Y[m,n]=∑i=0Hk−1∑j=0Wk−1X[m+i,n+j]⋅Kflipped[i,j]Y[m,n] = \sum_{i=0}^{H_k-1} \sum_{j=0}^{W_k-1} X[m+i, n+j] \cdot K_{\text{flipped}}[i,j]Y[m,n]=i=0∑Hk−1j=0∑Wk−1X[m+i,n+j]⋅Kflipped[i,j]其中

2025-08-03 20:43:24 968

原创语义分割--Fcn

如输入特征尺寸为 a×b，之后连接一个 1×c的全连接层，那么卷积层的输出与全连接层间的权值矩阵大小为 ( a × b ) × c。图像进行卷积时，因为每一个卷积核中的权值都是共享的，因此无论输入图像的尺寸多大，都可以按步长滑动做卷积，不同之处在于经过卷积运算，不同大小的输入图片所提取出的卷积特征的大小是不同的。Fcn16s: 对最后一层输出的特征图上采样2倍恢复到16分之一的尺寸，再把前面卷积层16分之一的尺寸拿过来，两个相加（也就是下图红色标记的两部分），最后再上采样16倍恢复到原始图像的尺寸。

2025-08-03 20:37:11 405

原创转置卷积解释与示例计算

本文分析了转置卷积的三种等价实现方法及其数学原理，并通过具体计算示例验证了方法的等价性。三种方法包括：1）零填充+翻转核卷积（数学定义方法），通过输入扩展和核翻转实现；2）直接位置映射（框架高效实现），通过散射操作将核权重分配到输出空间；3）矩阵转置法（数学本质实现），利用卷积矩阵的转置运算。以一个2×2输入和2×2核为例，三种方法均得到相同的4×4输出矩阵，验证了数学上的等价性。这些方法从不同角度实现了相同的线性变换，为深度学习中的上采样操作提供了理论基础和实现选择。

2025-08-03 20:12:23 1018

原创模型部署与推理--利用libtorch模型部署与推理

下载的时候选择release版本，下载之后解压，得到libtorch动态库。打开vs2022，新建控制台文件，切换到release-x64，然后打开属性（以下是如何在vs添加动态库并调用动态库的过程，网上很多教程）3、选择的libtorch，cuda版本要和训练时候的pytorch，cuda版本相同.如果训练的时候是高版本的pytorch、cuda而部署的时候选择低版本的libtorch可能会有问题。2、选择gpu版本，既可以在cpu上推理也可以在gpu上推理。链接器–>常规–>库目录添加。

2025-07-04 23:36:54 851

原创 pytorch底层原理学习--JIT与torchscript

JIT编译器在模型运行时（而非训练时）对代码进行即时编译与优化。在pytorch中JIT编译器它不会将编译的过程一口气完成，而是先对代码进行一些处理，存储成某种序列化表示（比如计算图然后在实际的运行时环境中，通过 profiling 的方式，进行针对环境的优化并执行代码。pytorch JIT就是为了解决部署而诞生的工具。包括代码的追踪及解析、中间表示的生成、模型优化、序列化等各种功能，可以说是覆盖了模型部署的方方面面。

2025-07-02 20:55:59 1392

原创模型部署与推理--利用python版本onnxruntime模型部署与推理

在Windows中使用Python版ONNX Runtime部署PyTorch模型的步骤如下：在训练环境中安装ONNX并通过torch.onnx.export导出模型；创建新conda环境并安装ONNX Runtime（CPU/GPU版本）；对于GPU版本需配置CUDA和cuDNN环境；使用ONNX Runtime进行推理，支持CPU和GPU加速。关键点包括预处理输入与导出时保持一致，以及通过IO绑定优化GPU推理性能。批量推理时可比较CPU和GPU的推理速度差异，注意首次推理会包含模型编译时间。

2025-07-01 23:46:31 1243

原创 pytorch底层原理学习--Libtorch

libtorch 是 PyTorch 的 C++ 实现版本，可以认为所有的pytorch底层都是由c++实现，而pytorch的所有C++实现就叫libtorch，也就是我们在pytorch官网getstart页面下载的c++pytorch版本。libtorch C++ Frontend可以看作是 PyTorch Python Frontend（也就是dataset, dataloader, torch.nn那一套）的 C++ 版本，为机器学习和神经网络提供自动微分和各种更高级别的抽象。

2025-07-01 15:52:05 1041

最小二乘求解点云平面方程及其对应法向量.md

空空如也