自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 收藏
  • 关注

原创 单应性矩阵与相机内外参之间的关系

参考下面的文档:从单应性矩阵与相机内外参之间的关系 - 量子与太极 - 博客园

2024-10-28 13:40:49 215

原创 A review of edge-based 3D tracking of rigid objects

刚体物体的三维(3D)跟踪在增强现实、计算机视觉和机器人等多个领域中发挥着非常重要的作用。为了追求更稳定、更快速和更准确的3D跟踪,已有大量研究成果。在各种跟踪方法中,基于边缘的3D跟踪由于其许多优点而被广泛使用。此外,基于边缘的方法主要分为两类,即不需要显式提取边缘的方法和需要显式提取边缘的方法。基于此,本文介绍、分析并比较了两类中的代表性方法。最后,给出了一些关于在不同应用场景中选择方法的建议,以及未来研究的方向。

2024-10-15 16:11:21 971

原创 原文翻译:Make Skeleton-based Action Recognition Model Smaller, Faster and Better

摘要尽管基于骨架的动作识别在近年来取得了巨大的成功,但大多数现有方法可能面临模型规模庞大和执行速度缓慢的问题。为了解决这个问题,我们分析了骨架序列的特性,提出了一种双特征双运动网络(DD-Net)用于基于骨架的动作识别。通过使用轻量级网络结构(即15万参数),DD-Net能够实现超快的速度,在一台GPU上达到3500帧每秒(FPS),在一台CPU上达到2000 FPS。通过采用稳健的特征,DD-Net在我们的实验数据集上(即SHREC(手部动作)和JHMDB(身体动作))达到了最先进的性能。

2024-09-27 14:48:58 759

原创 SRT3D: A Sparse Region-Based 3D Object Tracking Approach for the Real World

基于区域的方法在基于模型的单目3D跟踪无纹理物体的复杂场景中变得越来越流行。然而,尽管它们能够实现最先进的结果,大多数方法的计算开销很大,需要大量资源来实时运行。在下文中,我们基于之前的工作,开发了SRT3D,这是一种稀疏的基于区域的3D物体跟踪方法,旨在弥合效率上的差距。我们的方法在所谓的对应线(这些线模型化了物体轮廓位置的概率)上稀疏地考虑图像信息。由此,我们改进了当前的技术,并引入了考虑定义的全局和局部不确定性的平滑阶跃函数。对于所得到的概率公式,提供了详尽的分析。

2024-09-13 14:33:56 1449

原创 Deep Active Contours for Real-time 6-DoF Object Tracking

这篇论文解决了从RGB视频进行实时6自由度(6-DoF)物体跟踪的问题。此前的基于优化的方法通过对齐投影模型与图像来优化物体姿态,这种方法依赖于手工设计的特征,因此容易陷入次优解。最近的基于学习的方法使用神经网络来预测姿态,但它们在泛化能力或计算效率上有所欠缺。我们提出了一种基于学习的主动轮廓模型,以充分利用这两种方法的优点。具体来说,给定一个初始姿态,我们将物体模型投影到图像平面上以获得初始轮廓,并使用一个轻量级网络预测轮廓如何移动以匹配真实的物体边界,从而提供优化物体姿态的梯度。

2024-09-12 14:37:02 793

原创 Construct Dynamic Graphs for Hand Gesture Recognition via Spatial-Temporal Attention

手势识别是一个活跃的研究领域,因其在诸如人机交互、游戏以及包括手语识别在内的非语言交流分析中的广泛应用而备受关注。以往的工作可以根据输入模式分为两类:基于图像的方法和基于骨架的方法。基于图像的方法以RGB或RGB-D图像作为输入,并依赖图像级特征进行识别。而基于骨架的方法则通过一系列具有二维或三维坐标的手部关节进行预测。由于这些方法能够在光照条件变化和遮挡的情况下仍然保持鲁棒性,它们得到了广泛的使用。

2024-09-09 21:16:07 702

原创 Lightweight Multi-View 3D Pose Estimationthrough Camera-Disentangled Representation

我们提出了一种轻量级解决方案,用于从空间校准的多视角相机捕获的图像中恢复 3D 姿态。基于近期在可解释性表示学习方面的进展,我们利用 3D 几何信息将输入图像融合成一个统一的姿态潜在表示,该表示与相机视角解耦。这使我们能够有效地在不同视角下推理 3D 姿态,而不需要计算密集型的体积网格。我们的架构通过相机投影算子对学习到的表示进行条件化,从而生成准确的每视角 2D 检测,这些检测可以通过一个可微的直接线性变换(DLT)层简单地提升到 3D。

2024-09-03 14:29:40 1041

原创 BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs

BlazeFace,这是一种轻量级且性能优异的面部检测器,专为移动GPU推理而设计。它在旗舰设备上运行速度可达200到1000+ FPS。这种超实时性能使其能够应用于任何增强现实管道中,作为任务特定模型的输入来准确识别面部感兴趣区域,例如2D/3D面部关键点或几何估计、面部特征或表情分类以及面部区域分割。

2024-08-22 11:11:10 896

原创 单目深度估计---- MiDaS DPT与Depth-Anything比较

DPT(‌Dense Predictive Transformers)‌与MiDaS都是深度学习模型,‌用于密集预测任务,‌如单目深度估计和语义分割。‌根据最新的研究和对比实验,‌DPT在多个方面展现出了对MiDaS的优势。‌:‌DPT-Hybrid与MiDaS相比,‌平均相对改进率超过了23%,‌而DPT-Large的平均相对改进率则超过了28%。‌这一性能提升在多个数据集上得到了一致的验证,‌包括使用迄今为止最大的单目深度估计训练集进行的测试1。‌。

2024-08-04 12:51:23 1293

原创 3D Gaussian Splatting for Real-Time Radiance Field Rendering

我们的方法的输入是一组静态场景的图像,以及由SfM【Schönberger 和 Frahm 2016】校准的对应摄像机,SfM会产生稀疏点云作为副产品。我们从这些点创建了一组3D高斯分布(见第4节),定义了位置(均值)、协方差矩阵和不透明度α,这允许非常灵活的优化机制。这结果在于对3D场景的合理紧凑表示,部分原因是高度各向异性的体积喷溅可以紧凑地表示精细结构。辐射场的方向外观分量(颜色)通过球谐函数(SH)表示,遵循标准做法【Fridovich-Keil 和 Yu 等人 2022;

2024-06-08 14:45:56 1572

原创 YOLO v5与YOLO v8框图比较

【2】YOLOv8原理解析:重新定义实时目标检测的速度和精度_迪菲 yolov8-CSDN博客

2024-06-03 10:43:58 498

原创 Monocular Model-Based 3D Tracking of Rigid Objects:2005年综述

在视频序列中跟踪一个物体意味着在物体或摄像机移动时,持续识别其位置。根据物体类型、物体和摄像机的自由度以及目标应用的不同,有多种方法可供选择。二维跟踪通常旨在跟踪物体或物体部分的图像投影,这些物体的三维位移会导致可以建模为二维变换的运动。为处理由于透视效应或变形引起的外观变化,需要一个自适应模型。它可以提供物体图像位置,表示为其质心和尺度或仿射变换 [141, 26, 62]。或者,可以使用更复杂的模型,例如样条 [16]、可变形模板 [142]、二维可变形网格 [112] 或二维关节模型 [20]。

2024-05-24 17:05:27 910

原创 Fitting Parameterized Three-Dimensional Models to Images

基于模型的识别和运动跟踪依赖于解决投影和模型参数,使其最佳适应匹配的2D图像特征的3D模型的能力。本文将当前的参数求解方法扩展到处理具有任意曲面和任意数量的内部参数(表示关节、可变尺寸或表面变形)的对象。开发了数值稳定化方法,考虑了图像测量中固有的不准确性,并允许在匹配数小于未知参数数时确定有用的解决方案。使用Levenberg-Marquardt方法始终确保解决方案的收敛性。这些技术使基于模型的视觉能够应用于比以前的方法更广泛的问题类别。它们的应用被证明可以用于跟踪曲线、参数化对象的运动。

2024-05-22 17:33:25 899

原创 6D目标检测相关文献

待续。。。

2024-05-22 13:46:02 284

原创 Model-Based Pose Estimation for Rigid Objects(基于SIFT)

在多个实际应用中,经常会遇到确定图像中出现的物体姿态的问题。处理这一挑战的最有效策略是按照基于模型的范式进行,这涉及构建物体的3D模型,然后通过检测到的特征,将这些模型与新图像进行拟合来确定物体姿态。本文提出了一种基于模型的方法,用于从自然点特征中估计已知物体的全姿态。该方法采用了投影成像模型,并结合了可靠的自动机制用于姿态初始化和收敛。此外,该方法可以扩展到多摄像头系统,而无需进行多视图匹配,并且依赖稀疏结构从运动技术进行离线的物体模型构建。实验结果证明了其准确性和鲁棒性。

2024-05-22 11:16:44 928

原创 Towards Light-Weight and Real-Time Line Segment Detection

先前基于深度学习的线段检测(LSD)受到庞大的模型尺寸和高计算成本的困扰,这限制了它们在计算资源受限的环境中进行实时推断。在本文中,我们提出了一种适用于资源受限环境的实时轻量级线段检测器,称为Mobile LSD(M-LSD)。我们通过最小化骨干网络并消除先前方法中常见的用于线段预测的典型多模块过程,设计了一种极其高效的LSD架构。为了保持与轻量级网络的竞争性能,我们提出了新颖的训练方案:线段分段(SoL)增强、匹配和几何损失。SoL增强将线段分成多个子部分,在训练过程中用于提供辅助线段数据。

2024-04-26 17:48:51 922 1

原创 Monocular Camera Localization in Prior LiDAR Maps with 2D-3DLine Correspondences

在现有地图中进行轻量级相机定位对于基于视觉的导航至关重要。目前,视觉和视觉惯性测距(VO&VIO)技术在状态估计方面已经很成熟,但在闭环时会产生不可避免的漂移和姿态跳变。为了克服这些问题,我们提出了一种利用直接的2D-3D线对应关系在先前的LiDAR地图中进行高效的单目相机定位方法。为了处理LiDAR点云和图像之间的外观差异和模态差距,我们离线从LiDAR地图中提取了几何3D线,同时在线从视频序列中提取了稳健的2D线。利用VIO的姿态预测,我们可以高效地获得粗略的2D-3D线对应关系。

2024-04-25 11:16:42 839

原创 DeepI2P: Image-to-Point Cloud Registration via Deep Classification

本文提出了DeepI2P:一种新颖的方法,用于图像与点云之间的跨模态注册。给定一幅图像(例如来自RGB摄像机)和一般的点云(例如来自3D激光雷达扫描仪)在同一场景中不同位置捕获的情况下,我们的方法估计了摄像机和激光雷达的坐标系之间的相对刚性变换。由于在两种模态之间缺乏外观和几何相关性,学习用于建立注册对应关系的共同特征描述符本质上是具有挑战性的。我们通过将注册问题转换为分类和逆相机投影优化问题来绕过这一困难。设计了一个分类神经网络来标记点云中每个点的投影是否在相机截锥体内部或外部。

2024-04-24 11:34:02 916

原创 ImportError: /lib/x86_64-linux-gnu/libstdc++.so.6: version `GLIBCXX_3.4.26‘ not found

home/wyc/software/anconda3/lib/libstdc++.so.6.0.28,试着查看一下这个文件,0.28意思是该文件下版本最大支持到GLIBCXX_3.4.28,那么自然GLIBCXX_3.4.26也包含在内。(其中镜像名和标签号是我们随机取的,新镜像名以及我们的标签号!2、我们在不能判断容器与宿主机存在目录挂载/路径映射之前,我们可以使用指令:docker inspect --format='{{.Mounts}}' 容器名(其中,这个容器名为我们要测试的容器名)

2024-03-22 17:39:52 1266

原创 AR/MR产品设计(二):如何用一双手完成与虚拟对象的自然交互

手势交互,这一篇就够了

2024-03-18 10:50:46 1813

原创 解读 PICO 全新无灯环手柄背后的技术突破

为了避免对 3D 标注的依赖,本研究提出一种全新的手部多视角协同自监督学习方法 HaMuCo,该方法利用可学习的跨视角交互网络对单视角网络进行监督,从而在标签噪声较大的情况下,稳定地实现有效的自监督训练。一方面,对于紧密交互的双手,双手关节点之间具有多样的空间依赖关系,手部姿态的解空间复杂,这显著地增加了手部姿态预测的难度;在包含相机阵列与仿真系统的数据生产平台方面,由于数据需求的维度是多样化的,既要保证足够高的精度,又需要有充分的场景覆盖丰富度,而每一类的数据方案都有自己的优势与不足。

2024-03-14 17:03:12 1263

原创 数字人基础 | 3D手部参数化模型2017-2023

并且由于马普所在人体人脸人手上的权威性,很多研究都是基于MANO来做的, 所以这进一步导致学术界和工业界对MANO依赖的加深。简单的初步介绍完毕后,让我们进入正题!

2024-03-13 16:07:25 2706

原创 Hand 3D相关

看到一个不错的文献总结网址,如下。

2024-03-12 16:06:40 262

原创 MSCKF之零空间投影边缘化landmark

既然 rank(�)=�rank(A)=n,我们可以得到左零空间的维度为: �+nullity of the left null space(�)=�n+nullity of the left null space(A)=m nullity of the left null space(�)=�−�nullity of the left null space(A)=m−n。如果矩阵 �A 是列满秩的,这意味着它的所有列都是线性独立的,并且其秩等于其列数,即 rank(�)=�rank(A)=n。

2024-03-12 11:29:24 456

原创 多目灰度cam手势追踪系统——MegaTrack

【补充】SIGGRAPH是什么?为了脱离操纵杆,最开始人们的解决方案是制作一双充满电容手套,玩家戴上手套之后,系统就可以完美的掌握手势的每一个细节,但这样和直接握操纵杆没有本质区别,二者都属于在手部直接安装传感器。之所以输入来自上一轮的用于参考的3D点,是为了拟合真实数据和模拟数据的误差,也为了解决输入图像手部关键点的抖动问题(个人理解,这一步运用了残差的思想,把我上一轮生成的关键点用来辅助下一轮关键点的预测。而我接下来的任务就是以平易近人的科普方式,给大家讲解他们团队的手势追踪系统是如何实现的。

2024-03-11 15:34:24 712

原创 YOLO手部目标检测

手部目标检测原文地址如下:手部检测数据集地址如下:

2023-12-28 11:21:13 987 1

原创 谷歌云盘大文件下载解决方案

此时就可以愉快地使用快速下载的功能了,亲测可以下载成功谷歌云盘的大文件。前段时间在谷歌云盘下载一个40G左右的数据集,连续折腾几天都是下载中途就会失败,无奈寻求解决方案,最终发现IDM这个插件可以成功下载,遂记录一下。除此之外,如果没有弹出IDM的下载界面,我们也可以在浏览器的下载内容里找到之前正在下载的链接,右击转移到IDM里下载,然后弹出下载界面。原文链接:https://blog.csdn.net/Wenyuanbo/article/details/129860836。下载完成的界面如图所示。

2023-12-26 09:48:21 884

原创 ubuntu20.04运行动态手势识别SOTA算法DD-Net

上述配置完全可以跑通下面的DDnet,说明pytorch是向前兼容的。

2023-12-15 15:10:42 178

原创 Ubuntu 安装 GPU 驱动、CUDA、cuDNN、Pytorch以及是否安装成功的检测

首先确认电脑上安装了 NVIDIA 显卡。

2023-11-23 14:44:47 4038

原创 在mediapipe基础上进行finetune实现手势识别

链接如上所是。

2023-11-15 19:46:04 163

原创 Librealsense v2.54.1之后 Ubuntu 20.04下源码安装Realsense T265 SDK 和Realsense-ros-development

如果不能识别T265,sudo apt-get update,upgrade 等更新一下,再试试,一般没有没有什么问题的。如果安装有anaconda,可能会报python3冲突的错, 如下编译即可。将t265插到USB3.0插口,测试安装好的librealsense。主要是这个链接中的github源码好使,如下编译。下载包后如下链接、编译、安装。

2023-09-22 14:16:35 619

原创 ROS launch中的node name、package、type实际意义、定义与查找方法、具体位置

上网查了很多关于lauch文件中的pkg,type,都是说是包和可执行文件,具体这个文件在哪个文件夹也不甚清楚,实操了一番,记录一下。这里不是写launch文件怎样写,也不是多个node启动,只写一个node,为了说明pkg和type在哪。下面是一个示例的完整流程:cd ~/git (其他文件夹也可)ln -s ~/git/ros_best_practices/ ~/catkin_ws/src/ (建立symbolic link, 多个项目时比较方便)

2023-07-24 15:19:21 767

原创 Ubuntu20.04用D435i运行VINS-Fusion

修改3:camera_models/include/calib/CameraCalibration.h 和 loop_fusion/src/pose_graph.h 和 vins_estimator/src/featureTracker/feature_tracker.h 和 loop_fusion/src/ThirdParty/DVision/BRIEF.h中添加。可跑数据集验证安装,Euroc数据集可前往官网下载,从官网给的下载地址中下载,下载其中的bag文件,比如V1_01_easy.bag。

2023-07-18 13:37:00 635

原创 VINS_FUSION

相比于局部传感器,全局传感器(如GPS,气压计和磁力计等)可以提供全局观测,这些传感器使用全局统一坐标系,并且输出的观测数据的方差不随时间累积而增加,但这些传感器也存在一些问题,导致无法直接用于精确定位和建图,以GPS为例,GPS数据通常不平滑,存在噪声,且输出速率低,因此,一个简单而直观的想法是将局部传感器和全局传感器结合起来,以达到局部精确全局零漂的效果,也即是VINS Fusion的核心。其中圆形为状态量(如位姿,速度,偏置等),黄色正方形为局部观测的约束,即来自VO/VIO的相对位姿变换;

2023-07-17 15:58:49 246

原创 VS Code+NDK 安卓平台.so开发

对于安卓平台算法库开发人员,没有必要安装Android Studio,AS中需要安装根本用不到的java,还要做各种环境才能实现跨平台开发。其实,用VScode+NDK即可实现安卓平台.so开发!下面来自,很好的一篇博客!最近公司新需求,要求用C/C++实现部分核心代码,打包成静态库跨平台(Android和iOS)使用。

2023-07-14 15:31:08 2012

原创 马尔可夫毯

这段话说的比较严谨,通俗点儿说就是在可信的贝叶斯网络中,一个节点的马尔可夫毯包括它的爸妈、它的所有孩子、还有它的配偶,即生它的人和它参与生出来的人及它的现任妻子(因为你会发现孩子并非都是T和配偶共有的^_^)。值得注意的是,每个节点的配偶可以不止一个(即允许一夫多妻制,假如添加一条从X4到X6的箭头,则X4也是T的配偶),也可以没有配偶(即单身,比如图中的X4,虽然有两个孩子,但目前单身),当然我在这里假设的性别也是随时在变的,找谁的马尔可夫毯,谁就是男性^_^按照哲学的说法,万事万物都是有联系的;

2023-07-03 20:25:46 1055

原创 ubuntu20.04下安装anaconda+配置环境变量+运行+创建快捷方式

原来是在windows下用matlab进行数据处理与算法验证,在ubuntu下进行C++部署应用,需要不断的重启切换双系统,太麻烦,打算在ubuntu下用python进行数据处理与算法验证。anaconda-navigator 打开了用户界面了,然后选中spyder图标即可打开spyder IDE。打开文件后按i进入编辑模式,按Esc退出编辑模式,shift+冒号然后输入wq 保存文件并退出。注意:这里是anaconda的安装路径,根据自己的安装路径即可。2. 安装,在文件夹下打开命令窗口,输入。

2023-05-26 17:10:57 3474

原创 ubuntu上VSCode构建cmake工程

VSCode构建cmake工程

2023-05-17 14:11:33 628

原创 Kalman滤波参数、调整原则

卡尔曼滤波参数调整原则

2023-02-14 16:21:29 17395 10

原创 IMU误差模型和校准

参考 https://www.cnblogs.com/buxiaoyi/p/7541974.html目录。

2022-12-19 11:25:55 565

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除