月亮已死热爱可抵万难-CSDN博客

原创 Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID 2025最新无人机跟踪

文章本身的创新性上感觉参考的价值不大，主要是集中在了从之前使用比较多的YOLOX上转换到了使用最新的YOLO12的模型来进行替换，整个代码中yolo12的使用是更有参考价值的。提出了一个基于YOLOv 12和BoT-SORT的跟踪框架，而不是依赖于带有DeepSORT管道的YOLOv5与传统的RGB图像相比，热红外视频具有许多优势，例如在低光照和恶劣天气条件下增强了能见度，使其成为安全和监控应用的理想选择。这里论文中给出的图片信息应该就是热红外视频的跟踪方法。

2025-06-07 11:45:29 862

原创图网络与MOT-Learning a Robust Topological Relationship for Online Multiobject Tracking in UAV Scenarios

首先第一点先说明了问题。许多现有的多目标跟踪（MOT）方法倾向于单独建模每个目标的特征在视点变化剧烈和遮挡情况下，目标的当前特征与历史特征可能存在显著差异，容易导致目标丢失。意味着每个目标的视觉特征（如外观、运动等）是独立处理的。这种方法忽略了目标之间可能存在的关系或交互信息。例如，每个目标的特征会被看作是一个独立的实体，不会考虑目标之间的相互影响或者在跟踪过程中可能的相关性通过这个问题自然而然的就能引出图结构或者说拓扑结构的应用场景。

2025-04-29 11:37:02 598

原创斯坦福CS224W图机器学习、图神经网络、知识图谱【同济子豪兄】学习笔记

从评论区作者的问答中看到了，图嵌入就是对节点的信息进行嵌入操作的，如果我们想要对节点的信息得到全图的特征表示就要去学习一下全图的特征工程。通过这里来掌握一下从节点的嵌入到整图的嵌入除了我自己指标不太行的取一个平均的操作之前的工作中有没有一些其他的实现算法呢？这里的一个思想是把全图的一个节点的数量作为整体的一个向量，但是根据和自己的任务需求这里有点不太匹配。也就是可以简单的说，当我们的上游的嵌入向量表示的合理的时候，下游的任务才能更加顺利的去进行下去。是一种分布式的表示，这个向量是与下游的任务是无关的。

2025-04-27 21:02:41 742

原创图相似性计算网络

算法的作用：使用图神经网络解决图相似性计算的问题，看介绍上描述的是输入两个图，输入是两个图之间的相似性程度。首先，设计了一个可学习的嵌入函数，将每个图映射到一个嵌入向量，从而提供图的全局总结。提出了一种新的节点注意机制，根据特定的相似性度量来强调重要节点。可学习的嵌入函数 (Learnable embedding function)"可学习"指的是这个函数的参数是可以通过训练过程优化的。也就是说，嵌入函数本身不是一个固定的数学公式，而是一个可以根据数据和任务要求自动调整的模型。

2025-04-20 10:59:22 724

原创 Unifying Short and Long-Term Tracking with Graph Hierarchies—CVPR2023

短期关联（Short-term association）：指的是在没有被遮挡的情况下，跟踪对象的任务。即对象始终处于视野内，并且跟踪算法通过对象的特征来持续关联它们。指的是对于被遮挡（即不在视野内）并且之后重新出现在场景中的对象进行跟踪。这是一个更具挑战性的问题，因为对象可能在遮挡期间消失，导致跟踪算法失去对象的相关信息，需要重新识别和关联这个对象。摘要中提到的主要要解决的问题是：短期对象关联和长期对象关联。针对这些任务，现有的方法通常是专门设计的，并且分别解决特定问题。

2025-04-11 18:23:08 784

原创机器视觉基础—高斯滤波

下面使用自定义滤波的形式生成同样的结果，代码如下所示。输入参数：src：输入图像（灰度图或彩色图，支持 uint8、float32 等格式）。ddepth：输出图像的深度（如 -1 表示与输入相同，cv2.CV_64F 允许负值输出）。kernel：卷积核（单通道浮点型矩阵，如 np.float32）。可选参数：anchor：核的锚点位置（默认 (-1, -1) 表示核中心）。delta：卷积后添加到每个像素的偏移值（默认为 0）。

2025-03-29 20:23:26 591

原创 SuperGlue: Learning Feature Matching with Graph Neural Networks—使用图神经网络学习特征匹配初步阅读学习

SuperGlue是一个神经网络，它的作用是通过联合地寻找匹配点和排除无法匹配的点，来匹配两组局部特征这个地方实际上是特征匹配任务和SLAM任务中常用的一个部分。考虑的是做方法的迁移。它通过解一个可微的最优运输问题来估计运输成本，其成本由图神经网络来预测和匈牙利算法这种二部图匹配的问题是很类似的一种问题。SuperGlue引入了一种基于注意力机制的灵活上下文聚合方法，使其能够同时考虑3D场景的结构和特征分配。

2025-01-19 20:45:55 1124

原创用于多目标跟踪的点跟踪匹配方式总结与复习(二)——CVPR2024

之前自己也是写过关于GeneralTrack的解读，这里也是只关注点跟踪实现的重点部分理论的解读和理解，其他的一些方面进行省略。我们提出了一种用于MOT的“逐点到逐实例的关系”框架，即，GeneralTrack，它可以在不同的场景中进行归纳，同时消除了平衡运动和外观的需要。其使用的代码也参考了ByteTrack使用的是主流的TBD范式来进行的。补充:基于中心点的方式存在的问题严重遮挡的情况下类别判断的问题。之后结合平衡外观和运动特征的通用性分析，先对整体的方法进行了一定的概括。提出了一个MOT的。

2025-01-12 20:49:21 1178

原创用于多目标跟踪的点跟踪匹配方式总结与复习(一)——CVPR2024

NetTrack构建了一个动态感知的关联与细粒度的网络，利用点级的视觉线索。相应地，细粒度采样器和匹配方法已被纳入。细粒度采样方法动态感知关联(历史目标框的点和候选框中点匹配完成后，目标框与候选框的匹配)NetTrack引入细粒度学习来解决关联和定位问题（定位主要是检测器的性能问题那里）关于关联，NetTrack利用对象外观上的物理点，这些物理点不易受对象动态性的影响，并形成细粒度的视觉线索。

2025-01-12 10:43:35 1622

原创 RPT: Learning Point Set Representation for Siamese Visual Tracking—用于孪生网络的单目标视觉跟踪的学习点集表示

在cv中常常用来比较两个图片的相似度。孪生神经网络就是将输入进来的两张图片利用同一个神经网络进行特征提取，然后利用比较网络对这两个特征进行比较，最终输出一个长度为1的一维向量，其值在0-1之间，用于表示输入进来的图片的相似程度。其网络组成和执行的过程可以概括为下面的几个方面。孪生神经网络的主干特征提取网络的功能是进行特征提取，各种神经网络都可以适用，例如使用VGG16。比较网络。

2025-01-11 17:23:55 1045

原创 RepPoints: Point Set Representation for Object Detection—用于目标检测的点集表示

现代的目标检测器在很大程度上依赖于矩形边界框，如锚，建议和最终预测，以表示在各个识别阶段的对象。边界框使用方便，但仅提供对象的粗略定位，并导致对象特征的相应粗略提取。在本文中，我们提出了RepPoints（代表点），一个新的更精细的表示对象作为一组样本点有用的本地化和识别。给定用于训练的地面实况定位和识别目标，RepPoint学习以限制对象的空间范围并指示语义上重要的局部区域的方式自动排列自己。此外，它们不需要使用锚来对边界框的空间进行采样。

2025-01-11 10:38:53 1161

原创 TAP目标跟踪：TAPIR: Tracking Any Point with per-frame Initialization and temporal Refinement论文解读

该方法提出的是TAP模型，而且采用的是两阶段的跟踪方法。这两个阶段分别为：a matching stage:匹配阶段a refinement stage:细化阶段在匹配阶段：独立地为每隔一帧上的查询点找到合适的候选点匹配。根据局部相关性更新轨迹和查询特征。生成的模型在 TAP-Vid 基准上显着超越了所有基线方法，解读：先对第一个阶段的匹配阶段来进行细化的解读目标：在视频的每隔一帧（例如第 t+1 帧、第 t+2 帧等）中，为每个查询点找到一个最合适的候选点。

2025-01-01 16:45:13 1348

原创点跟踪基准最早的论文学习解读：TAP-Vid: A Benchmark for Tracking Any Point in a Video—前置基础

在较长的视频剪辑中跟踪表面上的任意物理点的问题已经受到了一些关注，但到目前为止，还没有用于评估的数据集或基准。在本文中，我们首先将问题形式化，将其命名为跟踪任意点（TAP）我们介绍了一个辅助基准测试，TAP-Vid，包含了真实世界的视频，这些视频具有准确的人体标注的点轨迹，以及合成视频，这些视频具有完美的真实点轨迹。我们基准构建的核心是一种新颖的半自动众包管道，它使用光流估计来补偿更简单的短期运动（如相机抖动），使注释者能够专注于视频中较难的部分。我们在合成数据上验证了我们的流程，并提出了一个。

2024-12-31 22:24:13 1083

原创基于图注意力网络的两阶段图匹配点云配准方法-完整版

首先，我们设计了动态图到点（DGTP）模块来学习点云局部图的特征表示，以提高局部特征的识别能力。然后，通过和引入的边缘阈值λ动态建立边缘，并使用图注意网络提取点云的全局特征以考虑拓扑结构中相似特征之间的关系。同时，从节点本身、局部和全局三个维度计算分数，并求和以进行关键点检测。最后，提出了一种两阶段图匹配方法，将具有高度相似特征的关键点分为不同的点组，并在第一阶段图匹配中建立点组的对应关系。在第二阶段的图匹配中建立了对应点群中的点的对应关系，从而减少了相似特征对点云配准精度的影响。

2024-12-24 22:38:11 1320

原创简单了解图注意力机制

也就是只有它自己本身和连接的两条边2和3来参与运算.然后其他节点的更新策略依次类推。

2024-12-21 21:15:20 1092 8

原创多目标跟踪与图匹配与SIFT结合—简单阅读师兄论文

这里介绍的时空关系可能是从师姐那里得到的启发。大多数现有方法使用单独的神经网络来生成目标边界框内数据关联的鲁棒特征。与仅考虑每个目标和独立形成的轨迹而忽略轨迹和帧内检测之间的上下文信息的现有方法不同，本文提出了一种将多通道特征与可学习图匹配相结合的跟踪算法。使用全局和局部显著特征来基于并行图对帧内目标的外观进行建模，并使用轨迹和检测之间完全无向的图关系来挖掘高阶上下文内关系。老师发我这篇论文的原因也是因为在深入的了解一下并行图的方法。

2024-12-21 15:36:52 1029

原创重读经典图匹配与多目标跟踪结合（四）—重读GMTracker站在师兄师姐的肩膀上CVPR2022

跨帧数据关联是多目标跟踪（MOT）任务的核心。作者发现了存在的两个主要的核心问题包括了现有方法大多忽略轨迹和帧内检测之间的上下文信息，这使得跟踪器难以在严重遮挡等具有挑战性的情况下生存。端到端关联方法仅依赖于深度神经网络的数据拟合能力，而几乎没有利用基于优化的分配方法的优势。基于图的优化方法大多利用单独的神经网络来提取特征，这带来了训练和推理之间的不一致。提出了一种新颖的可学习图匹配方法来解决这些问题。将轨迹和帧内检测之间的关系建模为通用无向图。

2024-12-20 22:21:42 1485

原创图匹配经典论文（三）Deep Learning of Graph Matching—CVPR2018图匹配

CVPR2018最佳论文提名的工作Deep Learning of Graph Matching首次将端到端的深度学习技术引入图匹配，提出了全新的深度图匹配框架。我们提出了一种端到端模型，可以学习图匹配过程的所有参数，包括一元和成对节点邻域，表示为深度特征提取层次结构。相比于只考虑节点与节点之间一阶相似度关系的点匹配，图匹配还考虑了图结构中，边到边的二阶相似度，实际上，在图匹配算法中，任意一对顶点、任意一对边之间，都存在相应的相似度度量。由于额外考虑了图结构中的二阶相似度信息。

2024-12-20 20:25:01 1188

原创图神经网络用于多目标跟踪系列—GNMOT：尝试进行环境的配置

经过验证安装是失败的只能凭感觉看看代码了看完这篇论文之后GNMOT：Graph Networks for Multiple Object Tracking个人感觉其中的一些核心的思想。

2024-12-19 11:14:52 438

原创图神经网络用于多目标跟踪系列—GNMOT：Graph Networks for Multiple Object Tracking

现有的MOT方法大都关注到局部的关系而忽略了全局的关系。一些方法将 MOT 问题表述为图优化问题。然而，这些方法基于静态图，很少更新。为了解决这些问题，我们设计了一种具有端到端图网络的新近在线 MOT 方法。设计一个外观图网络和一个运动图网络来分别捕获外观和运动相似度。我们的图网络中精心设计了更新机制，这意味着图中的节点边和全局变量都可以更新。全局变量可以捕获全局关系以帮助跟踪。最后，提出了一种处理丢失检测的策略来弥补检测器的缺陷。

2024-12-18 22:27:35 1196 2

原创 OC-Sort:Observation-Centric SORT: Rethinking SORT for Robust Multi-Object Tracking—以观察为中心的SORT

在学习多目标跟踪的时候，相信所有人最开始接触的都是SORT 或者是DeepSORT算法吧。其中最重要的一部分就是KF（卡尔曼滤波了）。包括之前自己学习的一些SORT算法也发现了对应KF本身之间的改进和思考是比较少的。SORT -> DeepSORT (改进的是级联匹配)DeepSORT -> ByteTrack (基于外观的高分框与低分框的匹配)ByteTrack - > GMtracker （引入图结构和图匹配增强匹配特征）

2024-12-17 17:55:34 1421

原创 MOTR: End-to-End Multiple-Object Tracking with Transformer——使用 Transformer 进行端到端多对象跟踪

之前常用的是启发式的算法来进行跟踪。提出了 MOTR，引入了的概念。track query对整个视频中的跟踪实例进行建模。track query逐帧传输和更新，以随着时间的推移执行迭代预测。是一种隐式的关联方法提出了轨迹感知标签分配来训练轨迹查询和新生对象查询。我们进一步提出时间聚合网络和集体平均损失来增强时间关系建模。取得了良好的效果。这些方法需要基于相似性的后处理匹配，这成为跨帧时间信息流的瓶颈。介绍一个完全端到端的 MOT 框架，具有关联运动和外观建模功能。

2024-12-15 19:47:23 985

原创 Towards Frame Rate Agnostic Multi-object Tracking—迈向帧率无关的多目标跟踪

目前的MOT研究仍然局限于输入流的固定采样帧率。根据经验当输入帧速率发生变化时，所有最新最先进的跟踪器的准确性都会急剧下降。本文的研究工作主要是：将注意力转向帧率不可知 MOT(FraMOT) 问题上去了。具有周期性训练方案的帧率无关多目标跟踪框架（FAPS））的帧率不可知 MOT 框架，以首次解决FraMOT问题。提出了一个帧速率不可知关联模块（FAAM老师推荐重点学习的部分，它可以推断和编码帧速率信息，以帮助跨多帧速率输入进行身份匹配。

2024-12-13 22:17:10 979

原创 Factorized Graph Matching—图匹配经典论文(二)

上文利用因式分解的方式得到一种新的统一的图匹配形式化方法，下面要介绍的就是如何求解上面定义的优化问题了。传统的求解图匹配问题通常分成两个步骤：1. 将GM进行连续性松弛，求解松弛后的问题得到一个近似的解；2.将近似解取整得到一个二元解。前文我们介绍过的双随机矩阵松弛就是一种连续性松弛的方式，他将X 由一个只有{ 0 , 1 }元素的离散矩阵，松弛为一个取值范围为[ 0 , 1 ]的连续矩阵，这样就可以用一些基于梯度的优化方法来求解了。

2024-12-13 11:46:36 902

原创 Factorized Graph Matching—图匹配经典论文

图匹配(GM)问题一直是计算机领域的一个十分经典的问题，包含成对约束的 GM 问题可以表述为二次分配问题(QAP)（QAP）虽然广泛使用，但通过 GM 解决对应问题有两个主要局限性.QAP问题是 NP 难的并且难以近似。GM 算法不包含计算机视觉问题中自然存在的节点之间的几何约束。几何约束是指节点之间在空间中的相对位置、角度、距离等条件。例如，在计算机视觉中的图像配准任务中，物体或特征点的几何位置通常是非常重要的，尤其是在处理带有透视变换、旋转或尺度变化的图像时，几何约束可以帮助确保匹配的准确性。

2024-12-11 17:32:57 1362 3

原创图神经网络—如何创建自己的图数据集结构

在第二部分我们学习如何将一个指定场景的数据转化成为，图神经网络可以去使用的数据类型。这里使用的是sklearn中的电商系统用户行为分析的数据来进行学习和使用。我们的任务是结合给定的这一副图，来构建出符合结构的数据集。获取出标签数据重新的进行输出。

2024-12-08 15:51:12 655

原创图神经网络代码学习—基本使用与分类任务

xvℓ1Wℓ1∑w∈Nv∪v1cwv⋅xwℓxvℓ1Wℓ1w∈Nv∪v∑cwv1⋅xwℓ# 导入全连接层和一个图卷积层self.conv1 = GCNConv(dataset.num_features,4) # 只需要定义好输入特征和输出特征即可self.classifier = Linear(2,dataset.num_features) # 最后一层的分类结构。

2024-12-08 14:54:16 1402

原创 SCGTracker-Spatio-temporal correlation and graph neural networks for mot-用于多对象跟踪的时空相关性和图神经网络

对于将多目标跟踪用于行人重识别或者行人检测等一些群体模型中，现在主要有两种解决方式。一是将数据关联问题转化为图匹配问题来求解二是应用社会权力模型作为群体追踪的高级约束前一种情况，随着跟踪对象数量的增加，求解难度呈几何级数增长，无法满足实时跟踪需求的计算效率，后面的一种情况会限制灵活性。因此文章的重点是提出一种时空相关性和图神经网络的多目标跟踪方法。首先，通过时空关系学习模块提取历史轨迹的关系特征，对对象的时空相关性进行建模。图神经网络结合外观和运动信息，将每个检测和轨迹之间的相似度作为节点特征。

2024-12-06 17:59:17 1167 4

原创机器学习中的图匹配问题—基础学习

图匹配就是：不仅考虑点之间的配准，还考虑边之间的配准 registration。这里在匹配的时候不仅要考虑到两个点之间的相似度，还要考虑到两个点之间边的一个相似度，从而就可以构成图结构，从而引入了图匹配的问题。如上，匹配两个图，一个图有5个点，一个图有4个点，我们要做的就是求解出一个5×4的0-1矩阵（组合优化问题），得到点与点间的匹配关系。一个很直接的求解方法是：计算点与点之间的相似度，构造Kp矩阵，然后求解这个规划模型。这里涉及了多目标跟踪领域的一个很常见的二部图关联算法—匈牙利算法，

2024-12-06 14:55:14 1191 2

原创 Particle Video Revisited: Tracking Through Occlusions Using Point Trajectories—点跟踪使用使用点轨迹跟踪遮挡

像素的追踪问题在之前的情况下通常会被视为是一个密集光流的估计问题，就像我们所学习过的RATF一样。跟踪视频中的像素通常作为光流估计问题来研究，其中每个像素都用一个位移向量来描述，该位移向量将其定位在下一帧中。那么这篇文章中对于像素点的跟踪是如何进行跟踪的呢？和之前的光流有什么区别呢？在本文中，我们重新审视 Sand 和 Teller 的“粒子视频”方法，并将像素跟踪作为远程运动估计问题进行研究这种方法旨在结合特征跟踪和光流的优点：产生既空间密集又时间上长程的运动估计。

2024-12-03 17:48:51 1316

原创 Dense Optical Tracking: Connecting the Dots—全网最早论文解析DOT密集光流跟踪与点跟踪相结合

它们在实践中太慢，无法在合理的时间内跟踪单帧中观察到的每个点。因此文章提出了DOT的方法这个和核心步骤在摘要中就已经给出了就是下面的三个部分组成的。它首先使用现成的点跟踪算法—Cotrakcer2从运动边界的关键区域中提取一小组轨迹。给定源帧和目标帧，DOT 然后通过最近邻插值计算密集流场和可见性掩模的粗略初始估计。可学习的光流估计器对其进行精炼我们证明，DOT 比当前的光流技术更加准确。

2024-11-30 18:11:31 1160

原创对比学习与自监督任务

从这里也可以简单的了解文章的核心是如何通过对比学习的概念对模型进行预训练（原文使用的Encode的结构就是我们所熟悉的RestNet50的结构了）

2024-11-29 11:34:30 729

原创 Walker: Self-supervised Multiple Object Tracking by Walking on Temporal Appearance Graphs——全网最早

首先说明了现在最先进的多目标跟踪方法需要大量的注释工作，以便为所有视频的所有帧提供边界框，并提供实例 ID 以将它们随时间关联起来。有监督的学习方法，大量的标注数据集MOT17 MOT20 BDD100K DanceTrack等提出了自己创建了一个全新的跟踪器walker它是：第一个从具有稀疏边界框注释的视频中学习的自监督跟踪器。并且没有跟踪标签。首先，设计了一个准密集时间对象外观图，并提出了一种新颖的多重正对比目标来优化图上的随机游走并学习实例相似性。

2024-11-28 22:13:25 954

原创全网最早Towards Generalizable Multi-Object Tracking—通用跟踪器的点跟踪CVPR2024

有效的跟踪器应该在不同场景中表现出高度的通用性，现有的跟踪器难以兼顾所有方面，或需要通过假设和实验来定制特定场景的关联信息（运动和/或外观），导致解决方案过于狭隘，通用性有限。本文探讨了影响跟踪器在不同场景中泛化能力的因素，并将其具体化为一组跟踪场景属性，以指导设计更具通用性的跟踪器。提出了一种逐点到实例关系跟踪框架，用于多目标跟踪，即GeneralTrack，该框架能够在不同场景中进行泛化，同时无需平衡运动和外观。重点指出的是具有较高的普遍性通用性。

2024-11-26 17:41:56 1172 4

原创 GPT系列文章

GPT1是由OpenAI公司发表在2018年要早于我们之前介绍的所熟知的BERT系列文章。总结：GPT 是一种半监督学习，采用两阶段任务模型，通过使用无监督的 Pre-training 和有监督的 Fine-tuning 来实现强大的自然语言理解。在 Pre-training 中采用了 12 层的修改过的 Transformer Decoder 结构，在 Fine-tuning 中会根据不同任务提出不同的分微调方式，从而达到适配各类 NLP 任务的目的这篇文献的主要贡献是提出了一种基于生成式预训练的语言理解

2024-11-21 11:58:25 1319

apache-tomcat-8.5.58-src.zip

dubbo-admin-master.zip

管理系统后端部分xitong.zip

智能小车摄像头内嵌的代码含义