
深度学习开源工程
文章平均质量分 69
深度学习开源工程
瞻邈
老菜鸟一个。
展开
-
双目深度估计大模型 FoundationStereo
本文介绍了 FoundationStereo,一种用于立体深度估计的基础模型,旨在实现强大的零样本泛化能力。通过构建大规模(100 万立体图像对)合成训练数据集,结合自动自筛选流程去除模糊样本,并设计了网络架构组件(如侧调谐特征主干和远程上下文推理)来增强可扩展性和准确性。这些创新显著提升了模型在不同领域的鲁棒性和精度,为零样本立体深度估计设立了新标准。相关论文 FoundationStereo: Zero-Shot Stereo Matching 获得 CVPR 2025 满分评审,代码已开源。转载 2025-04-09 13:43:45 · 112 阅读 · 0 评论 -
SAM2运行笔记
文章标题:SAM 2: Segment Anything in Images and Videos。原创 2025-01-25 15:20:29 · 558 阅读 · 0 评论 -
ViewFusion运行笔记
文章标题:ViewFusion: Towards Multi-View Consistency via Interpolated Denoising。原创 2025-01-09 18:01:18 · 465 阅读 · 0 评论 -
EscherNet运行笔记
文章标题:EscherNet: A Generative Model for Scalable View Synthesis。原创 2025-01-09 18:00:18 · 264 阅读 · 0 评论 -
Splatter Image运行笔记
文章标题:Splatter Image: Ultra-Fast Single-View 3D Reconstruction。原创 2024-12-09 18:31:46 · 2479 阅读 · 1 评论 -
NViST运行笔记
文章标题:NViST: In the Wild New View Synthesis from a Single Image with Transformers 创建环境 进入环境安装torch torchvision torchaudio 安装其它依赖2. 数据下载与预处理2.1. 获取下载地址和密码点击链接 https://docs.google.com/forms/d/e/1FAIpQLSfU9BkV1hY3r75n5rc37IvlzaK2VFYbdsvoh原创 2024-12-02 20:45:48 · 860 阅读 · 0 评论 -
FreeReg运行笔记
文章标题:FREEREG: IMAGE-TO-POINT CLOUD REGISTRATION LEVERAGING PRETRAINED DIFFUSION MODELS AND MONOCULAR DEPTH ESTIMATORS匹配是图像到点云配准的基本问题。然而,由于图像和点之间的模态差异,通过现有的特征匹配度量学习方法很难学习鲁棒性和判别性的跨模态特征。我们建议首先通过预训练的大型模型来统一图像和点云之间的模态,然后在同一模态内建立鲁棒的对应关系,而不是在跨模态数据上应用度量学习。原创 2024-06-06 12:40:27 · 685 阅读 · 15 评论 -
BEVFormer代码阅读
正负样本的定义用到的就是匈牙利匹配算法,分类损失和类似回归损失的总损失和最小;类回归损失的计算代码如下:这里介绍一下,gt_box 的表示方式,gt_box 的维度是九维的,分别是 [xc,yc,zc,w,l,h,rot,vx,vy];而预测结果框的维度是十维的,所以要对 gt_box 的维度进行转换,转换为的维度表示为 [xc,yc,w,l,cz,h,rot.sin(),rot.cos(),vx,vy]计算类回归损失(L1 Loss)原创 2024-04-15 09:42:47 · 2249 阅读 · 0 评论 -
BEVFormer代码运行笔记
注意:根据你的cuda版本选择相应的版本,并注意它们之间的版本依赖关系。把Mini的压缩包都放在同一个目录,例如名为v1.0-mini,然后解压,解压的时候会有一些目录合并。把全量的压缩包都放在同一个目录,例如名为v1.0-full,然后解压,解压的时候会有一些目录合并。把v1.0-mini改名为v1.0-trainval,这样得到的目录是。需要下载TrainVal, Test和can_bus,得到如下文件。需要下载Mini, Test和can_bus,得到如下文件。使用conda创建环境。原创 2024-03-13 13:16:36 · 1670 阅读 · 0 评论 -
PyTorch中DistributedDataParallel使用笔记
在pytorch中的多GPU训练一般有2种DataParallel和DistributedDataParallel,DataParallel是最简单的的单机多卡实现,但是它使用多线程模型,并不能够在多机多卡的环境下使用,所以本文将介绍DistributedDataParallel,DDP 基于使用多进程而不是使用多线程的DP,并且存在GIL争用问题,并且可以扩充到多机多卡的环境,所以它是分布式多GPU训练的首选。原创 2023-09-22 13:48:24 · 703 阅读 · 0 评论