3D视觉从入门到精通
文章平均质量分 85
博主及合伙人,先后就职于知名研究机构、自动驾驶公司、海康研究院,主要研究方向为深度学习、目标检测、语义分割、图像处理、自动驾驶感知算法等,CSDN博客专家。博主先后任职于知名研究院,致力于3D算法、VLAM算法,涉及相机标定、手眼标定、结构光、点云、三维重建等研究,同时也是CSDN博客专家。
3D视觉工坊
公众号「3D视觉工坊」博主,微信:cv3d007
展开
-
吊打BEVFormer!全任务SOTA!GaussianBeV:3D GS杀入BEV分割!
鸟瞰图(BeV)表示法广泛用于从多视图相机图像中进行3D感知。它允许将来自不同相机的特征合并到公共空间中,为3D场景提供统一的表示。关键组件是视图转换器,它将图像视图转换为鸟瞰图。然而,基于几何或交叉注意力的实际视图转换方法并未提供场景的足够详细表示,因为它们对3D空间进行了子采样,这对于建模环境的精细结构而言并非最优。在本文中,我们提出了GaussianBeV,这是一种通过将场景用一组位于3D空间中并定向的3D高斯分布进行精细表示,从而将图像特征转换为鸟瞰图的新方法。原创 2024-07-26 07:01:31 · 230 阅读 · 0 评论 -
ECCV‘24开源 | 塑造SLAM新纪元!6倍加速!LocoTrack:跟踪一切最新SOTA!
我们引入了LocoTrack,这是一个为跨视频序列跟踪任意点(TAP)任务而设计的高度准确且高效的模型。在此任务中,之前的方法通常依赖于局部2D相关图,以建立查询图像中的一个点到目标图像中局部区域的对应关系,但这种方法在处理同质区域或重复特征时往往会遇到困难,从而导致匹配模糊。LocoTrack通过一种新颖的方法克服了这一挑战,该方法利用跨区域的全对对应关系(即局部4D相关性)来建立精确的对应关系,通过双向对应关系和匹配平滑性显著提高了对抗模糊性的鲁棒性。原创 2024-07-28 00:01:20 · 345 阅读 · 0 评论 -
最新综述!全面总结动态NeRF!
神经辐射场(NeRF)是一种新颖的隐式方法,可以实现高分辨率的三维重建和表示。在首次提出NeRF的研究之后,NeRF获得了强大的发展力量,并在三维建模、表示和重建领域蓬勃发展。然而,最初以及随后大多数基于NeRF的研究项目都是静态的,这些项目在实际应用中较为薄弱。因此,越来越多的研究者对研究动态NeRF感兴趣并关注,因为动态NeRF在实际应用或情景中更为可行和有用。与静态NeRF相比,实现动态NeRF更加困难和复杂。但是动态NeRF在未来具有更大的潜力,甚至是可编辑NeRF的基础。原创 2024-05-31 07:01:55 · 93 阅读 · 0 评论 -
NeRF最新综述!超全!
近年来,神经辐射场(NeRF)在计算机视觉和图形领域取得了显著进展,为解决包括3D场景理解、新视角合成、人体重建、机器人学等关键任务提供了强大的技术支持,学术界对这一研究成果的关注日益增长。作为一种革命性的神经隐式场表示,NeRF在学术界引发了持续的研究热潮。因此,本综述的目的是对过去两年内有关NeRF的研究文献进行深入分析,为初涉研究者提供全面的学术视角。本文首先详细阐述了NeRF的核心架构,然后讨论了各种改进NeRF的策略,并在不同的应用场景中对NeRF进行了案例研究,展示了其在不同领域的实际效用。原创 2024-04-14 00:00:45 · 216 阅读 · 0 评论 -
120 FPS!城市场景3DGS新SOTA!TCLC-GS:高质量3D重建及合成!
大多数基于3D高斯光斑(3D-GS)的城市场景方法直接使用3D激光雷达点初始化3D高斯函数,这不仅未充分利用激光雷达数据的能力,而且忽视了将激光雷达与相机数据融合的潜在优势。在本文中,我们设计了一种新颖的紧密耦合的激光雷达-相机高斯光斑(TCLC-GS),以充分利用激光雷达和相机传感器的综合优势,实现快速、高质量的3D重建和新视角RGB/深度合成。TCLC-GS设计了一种混合的显式(着色的3D网格)和隐式(分层八叉树特征)3D表示,从激光雷达-相机数据中导出,以丰富用于光斑处理的3D高斯的属性。原创 2024-04-08 08:02:25 · 136 阅读 · 0 评论 -
如何正确理解无人机中的PID控制?
点击下方卡片,关注「计算机视觉工坊」公众号选择星标,干货第一时间送达点击加入「计算机视觉工坊」技术交流群对于PID的初学者,经常会有疑惑,为什么位置的误差通过PID就变成了期望速度?他们之间有什么物理关系吗?还有对于无人机,为什么期望升力,又是期望加速度,又是期望油门,这个输出的量纲到底是什么?其实,产生这个疑问的根本原因是没有区分开环控制和闭环控制。在实际控制系统中,我们经常用到开环控制和闭环控制的组合。开环控制其实就是前馈,闭环控制是反馈。接下来将以一个简单例子,说明这种这两种控制的关系。对于平面上一原创 2024-04-08 08:02:25 · 81 阅读 · 0 评论 -
Halcon深度学习项目实战系统教程
Halcon在机器视觉中的价值主要体现在提供高效、可扩展、灵活的机器视觉解决方案,帮助用户解决各种复杂的机器视觉问题,提高生产效率和产品质量。Halcon的灵活架构使其能够快速开发出任何类型的机器视觉应用。其全球通用的集成开发环境(HDevelop)有助于降低产品成本,并缩短软件开发周期。Halcon拥有超过2100个算子的成像库,该库支持多核平台、AVX2和NEON等特殊指令集以及GPU加速,从而有效提高机器视觉系统的性能。Halcon适用于多个行业,如工业检测、医学图像分析、农业育种等。原创 2024-03-27 10:58:36 · 113 阅读 · 0 评论 -
大词汇量高质量3D物体生成需要解决哪些问题?如何解决?
为了将之前的在单个类别上优化模型的工作扩展到大词汇量的3D物体生成,本文提出了一种新的基于三平面的3D感知扩散框架DiffTF。它由两个 3D 感知模块组成:1)3D 感知编码器/解码器;2)3D 感知Transformer。基于提取的通用和专门的 3D 先验知识,DiffTF 可以生成具有丰富语义的各种高质量 3D 物体。在ShapeNet和OmniObject3D上与SOTA 方法的对比验证了DiffTF的良好性能。相信这个工作可以为大词汇量 3D 生成提供一些有价值的见解。原创 2024-03-26 15:11:29 · 59 阅读 · 0 评论 -
120倍加速!PanopticNeRF-360:快速生成大量新视点全景分割图像!
训练自动驾驶汽车的感知系统需要大量的注释。然而,在2D图像中手工标记是高度劳动密集型的。虽然现有数据集为预先录制的序列提供了丰富的注释,但它们在标注很少遇到的视点方面存在不足,这潜在地阻碍了感知模型的泛化能力。在本文中,我们提出了PanopticNeRF-360,这是一种新的方法,它将粗糙的3D注释与嘈杂的2D语义线索相结合,以从任何视点生成一致的全景标签和高质量图像。我们的关键见解在于利用3D和2D先验的互补性来相互增强几何和语义。具体来说,我们建议利用3D和2D空间中的噪声语义和实例标签来指导几何优化。原创 2024-03-26 15:09:29 · 82 阅读 · 0 评论 -
CVPR‘24 | 秒杀DKM!最鲁棒的特征匹配已开源!
特征匹配是一项重要的计算机视觉任务,涉及估计三维场景两幅图像之间的匹配关系,而密集方法则估计所有这样的匹配关系。其目标是学习一个鲁棒的模型,即一个能够在具有挑战性的真实世界变化下进行匹配的模型。在这项工作中,我们提出了这样一个模型,利用了基于 DINOv2 基础模型的冻结预训练特征。尽管这些特征比从头开始训练的局部特征要稳健得多,但它们固有地粗糙。因此,我们将它们与专门的 ConvNet 微特征相结合,创建一个精确可定位的特征金字塔。原创 2024-03-14 07:04:06 · 296 阅读 · 0 评论 -
麻省理工最新开源!Khronos:动态环境下时空度量语义SLAM的统一方法
感知和理解高度动态和变化的环境对于机器人的自主性是至关重要的能力。虽然在开发动态SLAM方法方面已经取得了很大进展,能够准确估计机器人姿态,但在构建机器人环境的密集时空表示方面却没有给予足够重视。对场景及其随时间演变的详细理解对于长期机器人自主性至关重要,并且对于需要长期推理的任务也是必不可少的,比如在与人类和其他代理共享环境并因此受到短期和长期动态影响的情况下有效运行。为了解决这一挑战,本文定义了时空度量语义SLAM(SMS)问题,并提出了一个有效的因式分解和解决框架。原创 2024-03-13 07:00:47 · 103 阅读 · 0 评论 -
CVPR‘24 | UniMODE:单目3D目标检测大一统!室内室外全搞定!
实现统一的单目3D目标检测,包括室内和室外场景,对于诸如机器人导航之类的应用至关重要。然而,涉及多种数据场景来训练模型会带来挑战,因为它们具有显著不同的特征,例如,不同的几何属性和异构的域分布。为了解决这些挑战,我们基于鸟瞰(BEV)检测范式构建了一个检测器,其中显式特征投影有助于解决使用多种数据场景训练检测器时的几何学习歧义。然后,我们将经典的BEV检测架构分为两个阶段,并提出了一种不均匀的BEV网格设计,以处理由上述挑战引起的收敛不稳定性。原创 2024-03-13 07:00:47 · 180 阅读 · 0 评论 -
上交最新!第一个稠密语义Gaussian Splatting SLAM!
我们提出了SemGauss-SLAM,这是第一个利用3D高斯表示的语义SLAM系统,能够实现准确的3D语义建图、稳健的相机跟踪和高质量的实时渲染。在这个系统中,我们将语义特征嵌入到3D高斯表示中,有效地在环境的空间布局中编码语义信息,以实现精确的语义场景表示。此外,我们提出了特征级别的损失,用于更新3D高斯表示,从而为3D高斯优化提供更高级别的指导。另外,为了减少累积漂移并提高重建精度,我们引入了语义信息的束调整,利用语义关联进行3D高斯表示和相机姿态的联合优化,从而实现更强健的跟踪和一致的映射。原创 2024-03-16 00:01:09 · 162 阅读 · 0 评论 -
CVPR‘24 | 从有限的2D显微投影到高清3D重建
MicroDiffusion是一种创新的3D重建框架,旨在解决快速体积成像和生物医学研究中对深度丰富可视化的需求。该框架巧妙地结合了Implicit Neural Representation (INR)和Diffusion Models,利用有限的2D投影重建高分辨率的3D图像,显著增强了光学显微镜的成像能力。MicroDiffusion不仅加快了图像采集速度,还保留了3D空间信息,可以以高速获取详细的复杂生物结构图像。原创 2024-03-21 10:10:15 · 69 阅读 · 0 评论 -
清华:定位误差如何影响无人机飞行?
无人机(UAV)的最大安全飞行速度是衡量其在完成各种任务时效率的重要指标。该指标受诸多参数影响,如无人机定位误差、感知范围和系统延迟等。然而,在定位误差方面,尽管已经有许多研究致力于提高无人机的定位能力,但对其对速度的影响缺乏定量研究。在这项工作中,我们对无人机的各种参数与其最大飞行速度之间的关系进行建模。我们考虑了类似于穿越密集森林的场景,在这种场景中,无人机需要迅速避开直前的障碍物,并在避让后迅速重新定向。原创 2024-03-22 07:04:38 · 657 阅读 · 0 评论 -
CVPR‘24开源 | 当NeRF SLAM遇到回环会碰出怎样的火花?
神经RGBD SLAM技术已经显示出在稠密同时定位与地图构建(SLAM)中的潜力,但面临着诸如相机跟踪期间误差累积导致地图失真等挑战。作为回应,我们引入了Loopy-SLAM,它全局优化姿势和稠密的3D模型。我们使用基于数据驱动的基于点的子地图生成方法进行帧到模型的跟踪,并通过执行全局地点识别在线触发循环闭合。鲁棒的姿势图优化用于刚性地对齐本地子地图。由于我们的表示是基于点的,因此可以有效地进行地图校正,无需像通常所需的基于网格的建图结构一样存储用于建图的输入帧的整个历史。原创 2024-03-22 07:04:38 · 42 阅读 · 0 评论 -
无人机2D搜索革新,探索UVA多目标3D搜索
PHD滤波器是一种用于估计目标数量和位置的概率密度函数的方法,其在处理目标测量时执行贝叶斯更新。与传统的概率密度函数不同,PHD滤波器的积分表示预期目标数量而不是概率质量。滤波器利用先验和后验强度函数之间的关系进行更新,其中先验强度函数基于上一时刻的状态预测,而后验强度函数基于测量结果生成。在实际应用中,通常使用一组加权粒子来近似表示强度函数,以便在计算上更有效地处理。PHD滤波器在目标跟踪和检测等领域具有广泛的应用,能够处理多目标和动态环境下的目标跟踪问题。本文介绍了使用无人机寻找未知数量静态目标的问题。原创 2024-03-25 07:01:23 · 52 阅读 · 0 评论 -
NVIDIA最新!SAL:激光雷达分割一切!
我们提出了SAL(激光雷达中的任意分割)方法,包括一个文本提示型的零样本模型,用于分割和分类激光雷达中的任何对象,以及一个伪标记引擎,可促进模型训练,无需手动监督。虽然激光雷达全景分割(LPS)的建立范式依赖于事先定义的少数对象类别的手动监督,但我们利用2D视觉基础模型免费生成3D监督。我们的伪标签由实例掩码和相应的CLIP标记组成,我们使用校准的多模态数据将其提升到激光雷达上。通过在这些标签上训练我们的模型,我们将2D基础模型蒸馏到我们的激光雷达SAL模型中。原创 2024-03-25 07:01:23 · 92 阅读 · 0 评论 -
代码逐行解析 | 教你在C++中使用深度学习提取特征点
使用深度学习提取特征点的SLAM系统已经很多了,典型工作就是GCN-SLAM和SuperPoint-SLAM。感觉深度学习特征点相较传统ORB、SIFT这类特征点,主要优势在于重复性和鲁棒性,特征点的精度明显提升。缺点就是需要GPU,模型前向推理和NMS的计算本身也非常耗时。而且深度学习特征点的泛化性很差,也很难学习旋转不变性,在大旋转变化的匹配一般都不太好,当然REKD等方案也在专门研究旋转情况。Anyway,任何方法都有自己的优劣,都有适合的场景。原创 2024-03-16 00:01:09 · 120 阅读 · 0 评论 -
CVPR 2024 | FastMAC将获奖的MAC无损加速80倍
在获得每个节点对图滤波器响应幅度后,作者根据这些响应幅度进行采样。假设目标是从图信号 中采样 个分量,得到采样信号 ,其中 是采样索引集,则采样算子 被定义为从 到 的线性映射,,插值算子 被定义为从 到 的线性映射。一个设计良好的采样算子 的目标是最小化重构误差。原创 2024-03-17 00:01:20 · 180 阅读 · 0 评论 -
强化SuperPoint & SiLK!使用NeRF增强特征点检测+描述!
特征点检测和描述是各种计算机视觉应用的支柱,如运动结构、视觉SLAM和视觉地点识别。虽然基于学习的方法已经超越了传统的手工制作技术,但它们的训练通常依赖于简单的基于单应性的多视角模拟,从而限制了模型的泛化能力。本文介绍了一种利用神经辐射场(NeRFs)进行真实多视角训练数据生成的新方法。我们使用NeRFs创建了一个多样化的多视角数据集,包括室内和室外场景。我们提出的方法采用了最先进的特征检测器和描述符,通过透视投影几何进行NeRF合成视图的训练。原创 2024-03-18 07:04:39 · 110 阅读 · 0 评论 -
CVPR‘24 | 端到端矢量化高精地图新SOTA!提升8.3 mAP!
矢量化高清(HD)地图构建需要对地图元素(如道路边界、车道分隔线、人行横道等)的类别和点坐标进行预测。当前最先进的方法主要基于点级表示学习,用于回归准确的点坐标。然而,这种流程在获取元素级信息和处理元素级故障方面存在局限,例如错误的元素形状或元素之间的纠缠。为了解决上述问题,我们提出了一个简单而有效的混合框架,命名为HIMap,以充分学习和交互点级和元素级信息。原创 2024-03-20 07:03:27 · 100 阅读 · 0 评论 -
CVPR‘24开源!OneFormer3D:点云分割大一统!所有分割任务全SOTA!
三维点云的语义分割、实例分割和全景分割已经使用特定任务的不同设计模型来解决。因此,所有分割任务的相似性和它们之间的隐含关系尚未有效利用。本文提出了一个统一、简单、有效的模型,同时解决了所有这些任务。该模型名为OneFormer3D,使用一组可学习的内核一致执行实例和语义分割,其中每个内核负责为实例或语义类别生成掩码。这些内核使用基于Transformer的解码器进行训练,统一实例和语义查询作为输入传递。这样的设计使得可以在单次运行中端到端地训练模型,从而同时在所有三个分割任务上实现最佳性能。原创 2024-03-01 07:03:57 · 296 阅读 · 0 评论 -
牛津最新DreamUp3D,端到端3D场景重建与物体姿态估计
本文介绍了DreamUp3D,这是一种用于3D对象中心场景推断、对象级别表示学习和6D姿态估计的高效且强大的方法。与其他方法相比,DreamUp3D在测试时无需对新场景进行重新训练,也不需要多次查看静态场景,因此更适合于机器人任务。与最近的基线方法相比,DreamUp3D展示了更好的重建质量,并且能够在输入图像中想象被遮挡或缺失的对象部分。然而,需要进一步的研究来处理具有挑战性的场景,例如具有反射表面的场景,并且将3D重建纳入对象操纵以提高抓取效果是未来的研究方向。原创 2024-03-04 07:01:28 · 78 阅读 · 0 评论 -
稠密语义SLAM最新工作!SGS-SLAM打造最精确的3D语义地图!
语义理解在稠密同时定位与地图构建(SLAM)中发挥着至关重要的作用,有助于全面解释场景。将高斯飞溅技术整合到SLAM系统中的最新进展已经证明了它通过使用明确的3D高斯表示生成高质量渲染的有效性。在此进展基础上,我们提出了SGS-SLAM,这是第一个基于3D高斯的语义密集视觉SLAM系统,它在提供精确的3D语义分割的同时,还能产生高保真的重建。具体而言,我们建议在建图过程中采用多通道优化,将外观、几何和语义约束与关键帧优化相结合,以提高重建质量。原创 2024-03-07 07:02:30 · 260 阅读 · 0 评论 -
无所不能!OASim:基于3D GS的自动驾驶开源和自适应模拟器
随着深度学习和计算机视觉技术的发展,自动驾驶提供了改善交通安全和效率的新解决方案。构建高质量数据集的重要性不言而喻,特别是近年来端到端自动驾驶算法的兴起。数据在算法闭环系统中起着核心作用。然而,收集真实世界数据昂贵、耗时且不安全。随着隐式渲染技术的发展和对使用生成模型大规模生成数据的深入研究,我们提出了OASim,一种基于隐式神经渲染的开放式自适应模拟器和自动驾驶数据生成器。它具有以下特点:(1) 通过神经隐式表面重建技术实现高质量的场景重建。(2) 对自车和参与车辆的轨迹进行编辑。原创 2024-03-07 07:02:30 · 363 阅读 · 0 评论 -
爆火的Sora背后是什么?有哪些应用?首篇Sora综述来了!
Sora是一种文本到视频生成的人工智能模型,由OpenAI于2024年2月发布。该模型经过训练,能够从文本指令中生成逼真或想象的场景视频,并显示出在模拟物理世界方面的潜力。基于公开的技术报告和逆向工程,本文对该模型的背景、相关技术、应用、尚存挑战以及文本到视频人工智能模型未来发展方向进行了全面审查。我们首先追溯了Sora的发展历程,并调查了用于构建这个"世界模拟器"的基础技术。然后,我们详细描述了Sora在从电影制作、教育到营销等多个行业中的应用和潜在影响。原创 2024-03-09 00:02:48 · 370 阅读 · 0 评论 -
CVPR‘24 | OPPO最新实时6DoF主动重建系统NARUTO
在讨论部分,作者总结了NARUTO系统在神经主动重建领域的重大进展。他们通过将混合神经表示与不确定性学习相结合,并引入不确定性感知规划模块,实现了首个能够在无限制空间中执行六自由度运动的神经主动重建系统。此外,通过引入主动射线采样策略,他们改进了最先进的神经建图方法,提高了系统的多功能性和实用性。作者在多样化环境下使用室内场景模拟器对NARUTO系统进行了严格评估,并与现有方法在Replica和MP3D等基准数据集上进行了比较。结果表明,NARUTO系统在性能上优于现有方法,为主动重建设定了新的标准。原创 2024-03-10 00:01:07 · 76 阅读 · 0 评论 -
缝合怪?最新3D裂缝缺陷检测方案
本研究提出了一种用于在3D空间中检测结构异常的工作流程。由于缺乏可用的3D数据,利用基于图像的模型在异常分割方面的良好性能是一种可行的方法。通过使用TopoCrack、nnU-Net和DetectionHMA等领先模型,本研究建立了一个多视角异常检测的良好基础。尽管TopoCrack倾向于产生许多误报,但DetectionHMA在裂缝方面表现出色,nnU-Net在剥落和腐蚀等面积异常方面表现良好。分割性能部分实现了超过90%的IoU。然而,用AP衡量的实例分割明显较低,目前还不足以进行更高级的定量分析。原创 2024-03-11 07:01:34 · 178 阅读 · 0 评论 -
爆火的通才Agent到底是什么?谷歌重磅发布Genie基础世界模型!
我们介绍了Genie,这是第一个通过无监督方式从未标记的互联网视频中训练而成的生成式交互环境。该模型可以提示生成通过文本、合成图像、照片,甚至草图描述的各种可控行为的虚拟世界。以110亿参数计算,Genie可以被视为基础世界模型。它由一个时空视频标记器、一个自回归动力学模型和一个简单可扩展的潜在行为模型组成。尽管训练时没有任何地面真实的行为标签或其他通常在世界模型文献中找到的领域特定要求,但Genie使用户能够在生成的环境中逐帧进行操作。原创 2024-03-11 07:01:34 · 73 阅读 · 0 评论 -
CVPR‘24 | 简单而有效的3D医学图像框架VoCo
在本文中,作者提出了一种简单而有效的3D医学图像分析SSL框架VoCo。受到3D医学图像中不同器官之间相对一致的上下文位置的观察启发,作者建议利用上下文位置先验在预训练中学习一致的语义表示。具体而言,从输入体积中的不同位置裁剪体积,并将它们表示为一组基础,以表示不同方向的特征。然后,通过将随机裁剪的体积与不同基础的相似性进行对比来预测随机裁剪的体积的上下文位置。通过这种方式,VoCo有效地将上下文位置先验编码到模型表示中,使作者能够有效地提高需要高级语义的下游任务的性能。原创 2024-03-12 07:04:34 · 213 阅读 · 0 评论 -
ICLR‘24最新 | 相机姿态估计新SOTA!稀疏视角也不怕!
点击下方卡片,关注「3D视觉工坊」公众号选择星标,干货第一时间送达来源:3D视觉工坊添加微信:dddvision,备注:位姿估计,拉你入群。文末附行业细分群0. 写在前面今天笔者为大家推荐一篇ICLR oral的最新工作,实现了稀疏视角下的相机位姿估计,对于三维重建很有帮助。下面一起来阅读一下这项工作~1. 论文信息标题:Cameras as Rays: Sparse-view Pose Esti...原创 2024-02-18 07:03:50 · 90 阅读 · 0 评论 -
最新工业基于点云的3D缺陷检测和分类综述
点击下方卡片,关注「3D视觉工坊」公众号选择星标,干货第一时间送达来源:3D视觉工坊添加小助理:dddvision,备注:点云检测,拉你入群。文末附行业细分群论文题目:ADVANCEMENTS IN POINT CLOUD-BASED 3D DEFECTDETECTION AND CLASSIFICATION FOR INDUSTRIAL SYSTEMS:A COMPREHENSIVE SUR...原创 2024-02-22 07:03:58 · 504 阅读 · 0 评论 -
炸裂!谷歌深夜开源最强大模型Gemma!完虐LLaMA 2!
点击下方卡片,关注「3D视觉工坊」公众号选择星标,干货第一时间送达来源:3D视觉工坊添加小助理:dddvision,备注:三维视觉,拉你入群。文末附行业细分群0. 这篇文章干了啥?谷歌在北京时间2024年2月21日21点40发布了Gemma,先进的轻量级开放模型系列!Gemma采用了Gemini 模型相同的技术,在发布模型权重的同时,还推出了一系列工具,旨在支持开发者创新,促进合作,并指导如何使用...原创 2024-02-24 00:01:26 · 117 阅读 · 0 评论 -
上交最新开源!仅需4张图像实现高质量3D重建!
点击下方卡片,关注「3D视觉工坊」公众号选择星标,干货第一时间送达 来源:3D视觉工坊 添加小助理:dddvision,备注:3DGS,拉你入群。文末附行业细分群0. 这篇文章干了啥?一句话总结:提出了一个用Gaussian Splatting来表示和渲染3D物体的框架GaussianObject,它仅用4幅输入图像就可以达到很高的渲染质量。GaussianObject选择3D GS作为基...原创 2024-02-25 00:02:15 · 210 阅读 · 0 评论 -
如何在嘈杂环境评估机械臂动作识别准确性?
点击下方卡片,关注「3D视觉工坊」公众号选择星标,干货第一时间送达来源:3D视觉工坊添加小助理:dddvision,备注:机械臂抓取,拉你入群。文末附行业细分群论文题目:ROBUSTNESS EVALUATION OF MACHINE LEARNING MODELS FOR ROBOT ARM ACTION RECOGNITION IN NOISY ENVIRONMENTS作者:Elaheh Mo...原创 2024-02-27 07:01:08 · 62 阅读 · 0 评论 -
视觉位姿估计新SOTA!无纹理、复杂光照、大视角变化全不怕!
点击下方卡片,关注「3D视觉工坊」公众号选择星标,干货第一时间送达来源:3D视觉工坊添加小助理:dddvision,备注:特征匹配,拉你入群。文末附行业细分群0. 这篇文章干了啥?现有位姿估计方法主要是建立3D点和图像中的2D像素级关键点之间的稀疏匹配关系(FM),然后通过基于RANSAC的PnP来估计相机姿态。但是特征匹配在复杂的光照条件、季节性变化和视角变化容易失败。这篇文章提出了一种新的基于...原创 2024-02-27 07:01:08 · 114 阅读 · 0 评论 -
ICCV2023 | 极坐标-点云梦幻联动,实现3D目标检测的最佳性能
作者:大森林 | 来源:3DCV在公众号「3DCV」后台,回复「原论文」可获取论文pdf添加微信:dddvision,备注:自动驾驶,拉你入群。文末附行业细分群近年来,基于极坐标的表示方法在感知任务中表现出良好的应用前景。我们介绍了一种新型的极坐标三维物体探测器PARTNER。我们的方法在Waymo和ONCE验证集上分别以3.68%和9.15%的显著优势优于以前的基于极坐标的工作,并且获得了与最先...原创 2023-12-18 07:03:53 · 1043 阅读 · 0 评论 -
英伟达最新发布!超越其它所有SOTA的3D目标检测
作者:王林 | 来源:3DCV在公众号「3DCV」后台,回复「原论文」可获取论文pdf添加微信:dddvision,备注:自动驾驶,拉你入群。文末附行业细分群1、导读现有的3D物体检测方法通常需要使用完全注释的数据进行训练,而使用预训练的语义特征可以带来一些优势。然而,目前还没有利用扩散特征进行3D感知任务的研究。因此,我们提出了一种新的框架,通过视图合成任务来增强预训练的2D扩散模型的3D感知能...原创 2023-12-14 07:04:23 · 934 阅读 · 0 评论 -
南京理工最新突破!基于梯度和频率域的深度超分辨率新方法
作者:Zhengxue Wang| 来源:3DCV在公众号「3DCV」后台,回复「原论文」可获取论文pdf添加微信:dddvision,备注:立体视觉,拉你入群。文末附行业细分群由南京理工PCA Lab开发的深度图超分辨率方法SGNet(SGNet: Structure Guided Network via Gradient-Frequency Awareness for Depth Map ...原创 2023-12-15 07:04:03 · 890 阅读 · 0 评论