木木阳-CSDN博客

原创三维重建、SLAM 与 SfM 中的 Bundle Adjustment：原理与应用

Bundle Adjustment（BA）中文常译作“光束平差法”或“捆集调整”等，是计算机视觉和摄影测量中的核心优化技术，用于在多视图几何中联合优化相机参数（包括相机姿态以及有时包含相机内参）和三维点坐标。其名称来源于这样一个形象的描述：在优化前，每个三维特征点通过多张图片的相机光心发出一束束光线；经过优化调整后，这些来自各特征点的光束（bundle of rays）会尽可能聚拢汇交于各相机的光心。简单来说，BA 的目标是在给定一组包含相同场景点的多视角图像时，细化和提升三维场景重建的精度和一致性。

2025-07-15 11:17:55 1029

原创 VIT剪枝调研

剪枝作为压缩深度神经网络的方法，在卷积网络、Transformer 和大规模语言模型中得到了广泛研究。本文系统梳理了用户提供的剪枝方案，包括非结构化权重剪枝、结构化剪枝（滤波器、通道、神经元等）、注意力头剪枝、Token 和层级剪枝等方法。我们介绍每种方法的核心思想和类型，讨论其在大模型/Transformer（如GPT、BERT、LLaMA、ViT）中的适配性与创新点，包括是否需要重训练、是否依赖数据，以及是否具备对层、头、通道等结构的感知能力。

2025-07-01 20:12:44 1246

原创长尾形分布论文速览【80-119】

为便于理解和应用，以下将30篇关于长尾分布的研究文献按主题进行分类整理。每一大类包含相应的工作，帮助我们从整体上把握各方向的研究进展。

2024-10-29 10:59:36 1408 1

原创长尾形分布论文速览三十篇【60-89】

这些研究展示了LLMs在长尾数据分布、持续学习、异常检测、联邦学习、对比学习、知识图谱、推荐系统、多目标跟踪、标签修复、对象检测、医疗生物医学以及其他应用中的广泛应用。通过优化和创新，LLMs在这些领域展现了卓越的性能，并为解决长尾问题提供了有效的工具和方法。

2024-10-29 10:52:39 1817

原创长尾形分布论文三十篇速览2【30-59】

这些论文涵盖了从知识蒸馏、对比学习到医学影像和联邦学习等多个方向，展示了在长尾数据分布下提升模型表现的多样化策略和技术手段。研究显示，在长尾数据上取得优异表现的关键在于有效应对数据不平衡，动态调整模型的学习策略，并通过外部知识或补充机制来丰富模型的泛化能力。未来的研究可以继续探索这些方法在实际应用中的广泛适用性。

2024-10-24 10:36:56 1335

原创 Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos

这篇论文《Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos》提出了一种新的基于双高斯分割（Dual Gaussian Splatting, DualGS）的表征方法，用于处理以人为中心的体积视频。体积视频代表了视觉媒体领域的一项变革性进步，使用户能够自由地在沉浸式虚拟体验中进行导航，从而缩小数字世界与现实世界之间的差距。

2024-10-24 10:29:26 1586

原创长尾形分布论文三十篇速览1【0-29】

这三十篇论文主要围绕长尾分布问题展开，涉及多个不同领域的具体应用和方法，可以大致分为以下五类：长尾学习方法创新、多模态与自监督技术应用、知识蒸馏与适配、长尾场景下特定领域的应用、以及数据增强与网络优化。

2024-10-23 22:59:35 2271

原创 Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding翻译

我们提出了Imagen，这是一个具有前所未有的逼真度和深度语言理解能力的文本生成图像扩散模型。Imagen基于大型Transformer语言模型的文本理解能力，并结合了扩散模型在高保真图像生成中的优势。我们的关键发现是，使用预训练的仅包含文本的大型语言模型（如T5）在图像合成中出乎意料地有效：增大语言模型的规模比扩展图像扩散模型的规模更能提升样本的保真度和文本对齐度。

2024-10-23 22:44:15 1109

原创 Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering

我们的研究表明，该方法有效地减少了冗余高斯，同时提供高质量的渲染效果。高效的渲染性能：通过在推理阶段仅对视景体内的锚点进行高斯生成，并利用基于不透明度的过滤步骤，Scaffold-GS 在渲染速度和存储需求方面显著优于原始的3D-GS方法，同时保持了相似的渲染质量（大约100 FPS）。总结来说，Scaffold-GS 提出了一个基于锚点的高效视角自适应渲染方法，通过动态调整高斯核的属性以及锚点的生长和修剪策略，解决了传统方法中对新视角适应性差和冗余高斯的问题，达到了更高质量和更高效的渲染效果。

2024-10-22 11:30:05 1310

原创 MVGS: Multi-View-Regulated Gaussian Splatting for Novel View Synthesis

该文章提出了MVGS来改进现有的3DGS方法，特别是在新视角合成（Novel View Synthesis, NVS）任务中的表现。多视图调节训练（Multi-view regulated training）：通过多视图信息联合训练，避免过拟合某些视角，提高模型对全场景的学习能力。跨内在指导（Cross-intrinsic guidance）：提出了一种粗到细的训练方案，使用多层影像金字塔来提供多视图信息，提高模型的细节表现。

2024-10-22 10:53:18 1342

原创 Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis

我们提出了一种基于时空高斯的新表示方法，用于实现高保真且高效的动态视角合成。提出了特征点投影渲染，提高了模型的紧凑性并促进了时间变化外观的建模。引入了一种引导采样的方法，用于提升远处稀疏区域的渲染质量。在多个真实世界数据集上的广泛实验表明，本文的方法在渲染质量和速度上达到了当前最先进的水平，同时保持了紧凑的模型尺寸。我们的轻量级模型能够在8K分辨率下以60帧每秒（FPS）进行渲染。2. 相关工作新视角合成（Novel View Synthesis）

2024-10-21 11:44:21 1687

原创 4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling技术路线

1.初始化神经辐射场（NeRF）: 首先，使用随机参数初始化 NeRF 以表示三维场景。此时，NeRF的目标是从噪声分布开始，逐渐学习如何生成三维结构。2.得分蒸馏采样 (SDS) 优化: 我们使用 SDS 来逐步优化 NeRF的参数。具体而言，我们从文本提示中生成图像嵌入，并通过冻结的扩散模型计算图像的噪声和得分函数。然后，我们计算生成的三维图像与扩散模型输出之间的误差，并基于此误差反向传播更新NeRF 的参数。3.逐步生成三维结构: 通过多次迭代优化，NeRF 逐渐生成更接近目标的三维结构。

2024-10-15 23:41:20 1172

原创 Dynamic 3D Gaussians: Tracking by Persistent Dynamic View Synthesis 阅读

Dynamic 3D Gaussians:Tracking by Persistent Dynamic View Synthesis 论文阅读

2024-10-15 21:09:30 1792

原创 A Survey on 3D Gaussian Splatting 整理

3d gs survey整理

2024-10-15 17:23:49 2175

原创 WACV2023论文速览域迁移Domain相关

Paper1 CellTranspose: Few-Shot Domain Adaptation for Cellular Instance Segmentation摘要原文: Automated cellular instance segmentation is a process utilized for accelerating biological research for the past two decades, and recent advancements have produced h

2024-07-06 15:08:11 1215

原创 WACV2023论文速览Attention注意力机制相关

Paper1 ScoreNet: Learning Non-Uniform Attention and Augmentation for Transformer-Based Histopathological Image Classification摘要原文: Progress in digital pathology is hindered by high-resolution images and the prohibitive cost of exhaustive localized annota

2024-07-06 15:06:02 1486

原创 WACV2023检测相关论文速览

Paper1 CoKe: Contrastive Learning for Robust Keypoint Detection摘要原文: In this paper, we introduce a contrastive learning framework for keypoint detection (CoKe). Keypoint detection differs from other visual tasks where contrastive learning has been applie

2024-07-06 15:04:23 1151