Terry Cao 漕河泾-CSDN博客

原创基于dtw算法的动作、动态识别

4、预测结果reshape：result[0].reshape((-1,2)) 5、坐标点还原：img_h,img_w = img_raw.shape[:2]，乘上、画点！大致： 1、各动作片段视频，提取特征 -> 2、大视频、视频流、提取特征 -> 3、计算视频流中，各动作的 dtw距离 -> 4、由小到大排序 -> 5、最满足筛选条件的，认定为《某动作》！3、动态学习率：之前都是固定学习率，更好地拟合，刚开始学习率大，后面越来越小！# 没板子，烧录过程，直接跳过！

2025-10-16 14:26:05 1602

原创 Sigmoid Loss for Language Image Pre-Training

开创性工作CLIP[36]和ALIGN[23]验证了该方案在大规模场景下的可行性，随后多家机构陆续发布了私有[59,13,21,49]与公开[40,6,15,7,41]的大型图文数据集。BASIC[35]和LAION[52]探索大批次训练（分别达16k/160k），但需数百块芯片支持，前者还混合了私有分类数据集[35,55]。这类模型在零样本迁移任务（分类/检索）中表现优异，后续研究证明其表征可有效支持微调[53,16]、线性回归[23]、目标检测[31]、语义分割[33]及视频任务[57]。

2025-07-08 23:27:16 559

原创 VLM、VLA大模型的模仿学习与强化学习相关

PPO算法（附pytorch代码）-CSDN博客SAC算法：连续动作空间下的强化学习新范式https://zhuanlan.zhihu.com/p/685446416

2025-04-30 09:05:49 361

原创本地部署 deepseek-r1 1.5B方法-ubuntu20.04 python3.10 pycharm虚拟环境

git lfs的作用：通过存储大文件的指针而非文件本身，提高 Git 的效率，同时允许 Git 继续处理和版本控制大文件（如模型文件）。git clone的作用：下载整个仓库及其中的文件，但大文件会通过 Git LFS 的方式进行处理。所以，即使你通过git clone克隆了整个仓库，git lfs依然发挥作用，确保大文件能够以更高效的方式被管理和下载。

2025-02-26 11:24:03 1787

原创 DeepSeek-V3 技术报告比较好的中文翻译版本

除了闭源模型，开源模型也取得了显著进展，包括 DeepSeek 系列（DeepSeek-AI, 2024a,b,c;Touvron et al., 2023a,b）、Qwen 系列（Qwen, 2023, 2024a,b）和 Mistral 系列（Jiang et al., 2023;Peng et al., 2023b），其发展与硬件能力的提升密切相关（Luo et al., 2024;（DeepSeek-AI, 2024c）中已得到验证，能够在保持强大模型性能的同时，实现高效训练与推理。

2025-02-17 14:16:28 1158

原创 EWA Volume Splatting

本文提出了一种基于椭圆高斯核的直接体绘制新框架，使用了一种投影方法（splatting approach）。为避免混叠伪影（aliasing artifacts），我们引入了一种重采样滤波器的概念，该滤波器结合了重建核与低通滤波核。由于该方法与Heckbert用于纹理映射的EWA（椭圆加权平均）滤波器相似，我们将其称为EWA体投影（EWA Volume Splatting）。该方法即使在使用非球形核的情况下，也能实现高质量图像，既无混叠伪影，也不会产生过度模糊。

2024-11-23 19:43:09 1353

原创单应性矩阵与相机内外参之间的关系

参考下面的文档：从单应性矩阵与相机内外参之间的关系 - 量子与太极 - 博客园

2024-10-28 13:40:49 392

原创 A review of edge-based 3D tracking of rigid objects

刚体物体的三维（3D）跟踪在增强现实、计算机视觉和机器人等多个领域中发挥着非常重要的作用。为了追求更稳定、更快速和更准确的3D跟踪，已有大量研究成果。在各种跟踪方法中，基于边缘的3D跟踪由于其许多优点而被广泛使用。此外，基于边缘的方法主要分为两类，即不需要显式提取边缘的方法和需要显式提取边缘的方法。基于此，本文介绍、分析并比较了两类中的代表性方法。最后，给出了一些关于在不同应用场景中选择方法的建议，以及未来研究的方向。

2024-10-15 16:11:21 1144

原创原文翻译：Make Skeleton-based Action Recognition Model Smaller, Faster and Better

摘要尽管基于骨架的动作识别在近年来取得了巨大的成功，但大多数现有方法可能面临模型规模庞大和执行速度缓慢的问题。为了解决这个问题，我们分析了骨架序列的特性，提出了一种双特征双运动网络（DD-Net）用于基于骨架的动作识别。通过使用轻量级网络结构（即15万参数），DD-Net能够实现超快的速度，在一台GPU上达到3500帧每秒（FPS），在一台CPU上达到2000 FPS。通过采用稳健的特征，DD-Net在我们的实验数据集上（即SHREC（手部动作）和JHMDB（身体动作））达到了最先进的性能。

2024-09-27 14:48:58 951

原创 SRT3D: A Sparse Region-Based 3D Object Tracking Approach for the Real World

基于区域的方法在基于模型的单目3D跟踪无纹理物体的复杂场景中变得越来越流行。然而，尽管它们能够实现最先进的结果，大多数方法的计算开销很大，需要大量资源来实时运行。在下文中，我们基于之前的工作，开发了SRT3D，这是一种稀疏的基于区域的3D物体跟踪方法，旨在弥合效率上的差距。我们的方法在所谓的对应线（这些线模型化了物体轮廓位置的概率）上稀疏地考虑图像信息。由此，我们改进了当前的技术，并引入了考虑定义的全局和局部不确定性的平滑阶跃函数。对于所得到的概率公式，提供了详尽的分析。

2024-09-13 14:33:56 2389

原创 Deep Active Contours for Real-time 6-DoF Object Tracking

这篇论文解决了从RGB视频进行实时6自由度（6-DoF）物体跟踪的问题。此前的基于优化的方法通过对齐投影模型与图像来优化物体姿态，这种方法依赖于手工设计的特征，因此容易陷入次优解。最近的基于学习的方法使用神经网络来预测姿态，但它们在泛化能力或计算效率上有所欠缺。我们提出了一种基于学习的主动轮廓模型，以充分利用这两种方法的优点。具体来说，给定一个初始姿态，我们将物体模型投影到图像平面上以获得初始轮廓，并使用一个轻量级网络预测轮廓如何移动以匹配真实的物体边界，从而提供优化物体姿态的梯度。

2024-09-12 14:37:02 1192

原创 Construct Dynamic Graphs for Hand Gesture Recognition via Spatial-Temporal Attention

手势识别是一个活跃的研究领域，因其在诸如人机交互、游戏以及包括手语识别在内的非语言交流分析中的广泛应用而备受关注。以往的工作可以根据输入模式分为两类：基于图像的方法和基于骨架的方法。基于图像的方法以RGB或RGB-D图像作为输入，并依赖图像级特征进行识别。而基于骨架的方法则通过一系列具有二维或三维坐标的手部关节进行预测。由于这些方法能够在光照条件变化和遮挡的情况下仍然保持鲁棒性，它们得到了广泛的使用。

2024-09-09 21:16:07 1174

原创 Lightweight Multi-View 3D Pose Estimationthrough Camera-Disentangled Representation

我们提出了一种轻量级解决方案，用于从空间校准的多视角相机捕获的图像中恢复 3D 姿态。基于近期在可解释性表示学习方面的进展，我们利用 3D 几何信息将输入图像融合成一个统一的姿态潜在表示，该表示与相机视角解耦。这使我们能够有效地在不同视角下推理 3D 姿态，而不需要计算密集型的体积网格。我们的架构通过相机投影算子对学习到的表示进行条件化，从而生成准确的每视角 2D 检测，这些检测可以通过一个可微的直接线性变换（DLT）层简单地提升到 3D。

2024-09-03 14:29:40 1359 1

原创 BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs

BlazeFace，这是一种轻量级且性能优异的面部检测器，专为移动GPU推理而设计。它在旗舰设备上运行速度可达200到1000+ FPS。这种超实时性能使其能够应用于任何增强现实管道中，作为任务特定模型的输入来准确识别面部感兴趣区域，例如2D/3D面部关键点或几何估计、面部特征或表情分类以及面部区域分割。

2024-08-22 11:11:10 1212

原创单目深度估计---- MiDaS DPT与Depth-Anything比较

DPT（‌Dense Predictive Transformers）‌与MiDaS都是深度学习模型，‌用于密集预测任务，‌如单目深度估计和语义分割。‌根据最新的研究和对比实验，‌DPT在多个方面展现出了对MiDaS的优势。‌：‌DPT-Hybrid与MiDaS相比，‌平均相对改进率超过了23%，‌而DPT-Large的平均相对改进率则超过了28%。‌这一性能提升在多个数据集上得到了一致的验证，‌包括使用迄今为止最大的单目深度估计训练集进行的测试1。‌。

2024-08-04 12:51:23 3770 1

原创 3D Gaussian Splatting for Real-Time Radiance Field Rendering

我们的方法的输入是一组静态场景的图像，以及由SfM【Schönberger 和 Frahm 2016】校准的对应摄像机，SfM会产生稀疏点云作为副产品。我们从这些点创建了一组3D高斯分布（见第4节），定义了位置（均值）、协方差矩阵和不透明度α，这允许非常灵活的优化机制。这结果在于对3D场景的合理紧凑表示，部分原因是高度各向异性的体积喷溅可以紧凑地表示精细结构。辐射场的方向外观分量（颜色）通过球谐函数（SH）表示，遵循标准做法【Fridovich-Keil 和 Yu 等人 2022；

2024-06-08 14:45:56 2065

原创 YOLO v5与YOLO v8框图比较

【2】YOLOv8原理解析：重新定义实时目标检测的速度和精度_迪菲 yolov8-CSDN博客

2024-06-03 10:43:58 682

原创 Monocular Model-Based 3D Tracking of Rigid Objects：2005年综述

在视频序列中跟踪一个物体意味着在物体或摄像机移动时，持续识别其位置。根据物体类型、物体和摄像机的自由度以及目标应用的不同，有多种方法可供选择。二维跟踪通常旨在跟踪物体或物体部分的图像投影，这些物体的三维位移会导致可以建模为二维变换的运动。为处理由于透视效应或变形引起的外观变化，需要一个自适应模型。它可以提供物体图像位置，表示为其质心和尺度或仿射变换 [141, 26, 62]。或者，可以使用更复杂的模型，例如样条 [16]、可变形模板 [142]、二维可变形网格 [112] 或二维关节模型 [20]。

2024-05-24 17:05:27 1099

原创 Fitting Parameterized Three-Dimensional Models to Images

基于模型的识别和运动跟踪依赖于解决投影和模型参数，使其最佳适应匹配的2D图像特征的3D模型的能力。本文将当前的参数求解方法扩展到处理具有任意曲面和任意数量的内部参数（表示关节、可变尺寸或表面变形）的对象。开发了数值稳定化方法，考虑了图像测量中固有的不准确性，并允许在匹配数小于未知参数数时确定有用的解决方案。使用Levenberg-Marquardt方法始终确保解决方案的收敛性。这些技术使基于模型的视觉能够应用于比以前的方法更广泛的问题类别。它们的应用被证明可以用于跟踪曲线、参数化对象的运动。

2024-05-22 17:33:25 1024

原创 6D目标检测相关文献

待续。。。

2024-05-22 13:46:02 345

原创 Model-Based Pose Estimation for Rigid Objects（基于SIFT）

在多个实际应用中，经常会遇到确定图像中出现的物体姿态的问题。处理这一挑战的最有效策略是按照基于模型的范式进行，这涉及构建物体的3D模型，然后通过检测到的特征，将这些模型与新图像进行拟合来确定物体姿态。本文提出了一种基于模型的方法，用于从自然点特征中估计已知物体的全姿态。该方法采用了投影成像模型，并结合了可靠的自动机制用于姿态初始化和收敛。此外，该方法可以扩展到多摄像头系统，而无需进行多视图匹配，并且依赖稀疏结构从运动技术进行离线的物体模型构建。实验结果证明了其准确性和鲁棒性。

2024-05-22 11:16:44 1027

原创 Towards Light-Weight and Real-Time Line Segment Detection

先前基于深度学习的线段检测（LSD）受到庞大的模型尺寸和高计算成本的困扰，这限制了它们在计算资源受限的环境中进行实时推断。在本文中，我们提出了一种适用于资源受限环境的实时轻量级线段检测器，称为Mobile LSD（M-LSD）。我们通过最小化骨干网络并消除先前方法中常见的用于线段预测的典型多模块过程，设计了一种极其高效的LSD架构。为了保持与轻量级网络的竞争性能，我们提出了新颖的训练方案：线段分段（SoL）增强、匹配和几何损失。SoL增强将线段分成多个子部分，在训练过程中用于提供辅助线段数据。

2024-04-26 17:48:51 1165 1

原创 Monocular Camera Localization in Prior LiDAR Maps with 2D-3DLine Correspondences

在现有地图中进行轻量级相机定位对于基于视觉的导航至关重要。目前，视觉和视觉惯性测距（VO&VIO）技术在状态估计方面已经很成熟，但在闭环时会产生不可避免的漂移和姿态跳变。为了克服这些问题，我们提出了一种利用直接的2D-3D线对应关系在先前的LiDAR地图中进行高效的单目相机定位方法。为了处理LiDAR点云和图像之间的外观差异和模态差距，我们离线从LiDAR地图中提取了几何3D线，同时在线从视频序列中提取了稳健的2D线。利用VIO的姿态预测，我们可以高效地获得粗略的2D-3D线对应关系。

2024-04-25 11:16:42 1067

原创 DeepI2P: Image-to-Point Cloud Registration via Deep Classification

本文提出了DeepI2P：一种新颖的方法，用于图像与点云之间的跨模态注册。给定一幅图像（例如来自RGB摄像机）和一般的点云（例如来自3D激光雷达扫描仪）在同一场景中不同位置捕获的情况下，我们的方法估计了摄像机和激光雷达的坐标系之间的相对刚性变换。由于在两种模态之间缺乏外观和几何相关性，学习用于建立注册对应关系的共同特征描述符本质上是具有挑战性的。我们通过将注册问题转换为分类和逆相机投影优化问题来绕过这一困难。设计了一个分类神经网络来标记点云中每个点的投影是否在相机截锥体内部或外部。

2024-04-24 11:34:02 1189

原创 ImportError: /lib/x86_64-linux-gnu/libstdc++.so.6: version `GLIBCXX_3.4.26‘ not found

home/wyc/software/anconda3/lib/libstdc++.so.6.0.28，试着查看一下这个文件，0.28意思是该文件下版本最大支持到GLIBCXX_3.4.28，那么自然GLIBCXX_3.4.26也包含在内。（其中镜像名和标签号是我们随机取的，新镜像名以及我们的标签号！2、我们在不能判断容器与宿主机存在目录挂载/路径映射之前，我们可以使用指令:docker inspect --format='{{.Mounts}}' 容器名(其中，这个容器名为我们要测试的容器名)

2024-03-22 17:39:52 1774

原创 AR/MR产品设计（二）：如何用一双手完成与虚拟对象的自然交互

手势交互，这一篇就够了

2024-03-18 10:50:46 3459

原创解读 PICO 全新无灯环手柄背后的技术突破

为了避免对 3D 标注的依赖，本研究提出一种全新的手部多视角协同自监督学习方法 HaMuCo，该方法利用可学习的跨视角交互网络对单视角网络进行监督，从而在标签噪声较大的情况下，稳定地实现有效的自监督训练。一方面，对于紧密交互的双手，双手关节点之间具有多样的空间依赖关系，手部姿态的解空间复杂，这显著地增加了手部姿态预测的难度；在包含相机阵列与仿真系统的数据生产平台方面，由于数据需求的维度是多样化的，既要保证足够高的精度，又需要有充分的场景覆盖丰富度，而每一类的数据方案都有自己的优势与不足。

2024-03-14 17:03:12 1633

原创数字人基础 | 3D手部参数化模型2017-2023

并且由于马普所在人体人脸人手上的权威性，很多研究都是基于MANO来做的, 所以这进一步导致学术界和工业界对MANO依赖的加深。简单的初步介绍完毕后，让我们进入正题！

2024-03-13 16:07:25 4964 1

原创 Hand 3D相关

看到一个不错的文献总结网址，如下。

2024-03-12 16:06:40 314

原创 MSCKF之零空间投影边缘化landmark

既然 rank(�)=�rank(A)=n，我们可以得到左零空间的维度为： �+nullity of the left null space(�)=�n+nullity of the left null space(A)=m nullity of the left null space(�)=�−�nullity of the left null space(A)=m−n。如果矩阵 �A 是列满秩的，这意味着它的所有列都是线性独立的，并且其秩等于其列数，即 rank(�)=�rank(A)=n。

2024-03-12 11:29:24 673

原创多目灰度cam手势追踪系统——MegaTrack

【补充】SIGGRAPH是什么？为了脱离操纵杆，最开始人们的解决方案是制作一双充满电容手套，玩家戴上手套之后，系统就可以完美的掌握手势的每一个细节，但这样和直接握操纵杆没有本质区别，二者都属于在手部直接安装传感器。之所以输入来自上一轮的用于参考的3D点，是为了拟合真实数据和模拟数据的误差，也为了解决输入图像手部关键点的抖动问题（个人理解，这一步运用了残差的思想，把我上一轮生成的关键点用来辅助下一轮关键点的预测。而我接下来的任务就是以平易近人的科普方式，给大家讲解他们团队的手势追踪系统是如何实现的。

2024-03-11 15:34:24 971

原创 YOLO手部目标检测

手部目标检测原文地址如下：手部检测数据集地址如下：

2023-12-28 11:21:13 1254 1

原创谷歌云盘大文件下载解决方案

此时就可以愉快地使用快速下载的功能了，亲测可以下载成功谷歌云盘的大文件。前段时间在谷歌云盘下载一个40G左右的数据集，连续折腾几天都是下载中途就会失败，无奈寻求解决方案，最终发现IDM这个插件可以成功下载，遂记录一下。除此之外，如果没有弹出IDM的下载界面，我们也可以在浏览器的下载内容里找到之前正在下载的链接，右击转移到IDM里下载，然后弹出下载界面。原文链接：https://blog.csdn.net/Wenyuanbo/article/details/129860836。下载完成的界面如图所示。

2023-12-26 09:48:21 1617

原创 ubuntu20.04运行动态手势识别SOTA算法DD-Net

上述配置完全可以跑通下面的DDnet，说明pytorch是向前兼容的。

2023-12-15 15:10:42 647

原创 Ubuntu 安装 GPU 驱动、CUDA、cuDNN、Pytorch以及是否安装成功的检测

首先确认电脑上安装了 NVIDIA 显卡。

2023-11-23 14:44:47 5237

原创在mediapipe基础上进行finetune实现手势识别

链接如上所是。

2023-11-15 19:46:04 327

原创 Librealsense v2.54.1之后 Ubuntu 20.04下源码安装Realsense T265 SDK 和Realsense-ros-development

如果不能识别T265，sudo apt-get update，upgrade 等更新一下，再试试，一般没有没有什么问题的。如果安装有anaconda，可能会报python3冲突的错，如下编译即可。将t265插到USB3.0插口，测试安装好的librealsense。主要是这个链接中的github源码好使，如下编译。下载包后如下链接、编译、安装。

2023-09-22 14:16:35 1017

原创 ROS launch中的node name、package、type实际意义、定义与查找方法、具体位置

上网查了很多关于lauch文件中的pkg，type，都是说是包和可执行文件，具体这个文件在哪个文件夹也不甚清楚，实操了一番，记录一下。这里不是写launch文件怎样写，也不是多个node启动，只写一个node，为了说明pkg和type在哪。下面是一个示例的完整流程：cd ~/git （其他文件夹也可）ln -s ~/git/ros_best_practices/ ~/catkin_ws/src/ （建立symbolic link, 多个项目时比较方便）

2023-07-24 15:19:21 1073

原创 Ubuntu20.04用D435i运行VINS-Fusion

修改3：camera_models/include/calib/CameraCalibration.h 和 loop_fusion/src/pose_graph.h 和 vins_estimator/src/featureTracker/feature_tracker.h 和 loop_fusion/src/ThirdParty/DVision/BRIEF.h中添加。可跑数据集验证安装，Euroc数据集可前往官网下载，从官网给的下载地址中下载，下载其中的bag文件，比如V1_01_easy.bag。

2023-07-18 13:37:00 1134 1

原创 VINS_FUSION

相比于局部传感器，全局传感器（如ＧＰＳ，气压计和磁力计等）可以提供全局观测，这些传感器使用全局统一坐标系，并且输出的观测数据的方差不随时间累积而增加，但这些传感器也存在一些问题，导致无法直接用于精确定位和建图，以ＧＰＳ为例，ＧＰＳ数据通常不平滑，存在噪声，且输出速率低，因此，一个简单而直观的想法是将局部传感器和全局传感器结合起来，以达到局部精确全局零漂的效果，也即是ＶＩＮＳ Fusion的核心。其中圆形为状态量(如位姿，速度，偏置等)，黄色正方形为局部观测的约束，即来自VO/VIO的相对位姿变换；

2023-07-17 15:58:49 495

空空如也

空空如也