自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Siamese Transformer Pyramid Networks for Real-Time UAV Tracking

本文没有迁移复杂的transformer的编码器和解码器范式,而是利用transformer的编码器,并设计了一个基于注意力的特征金字塔融合网络,以更有效地学习目标特定模型。1、使用轻量级卷积神经网络ShuffleNetv2中的固有的特征金字塔,再用transformer对特征金字塔进行强化,构建鲁棒性较强的特定目标的外观模型。的启发,最近的作品引入了基于注意力的模块,并取得了较好的成果。有三种方法可以降低计算成本:(1)减小查询大小,(2)减小C的维数,或(3)减小键和值的大小。以避免计算/存储器开销。

2023-04-26 10:06:03 370

原创 单目标跟踪算法及其复现过程---ToMP (CVPR2022, Transforming Model Prediction for Tracking)(三)

基于优化的跟踪方法通过整合目标模型预测模块已被广泛成功,通过最小化目标函数来提供有效的全局推理。虽然这种归纳偏差整合了有价值的领域知识,但它限制了跟踪网络的表达能力。这里描述的基于优化的跟踪方法,作者在下文解释中主要针对基于判别相关滤波的跟踪模型,即判别相关滤波方法的目标函数在previous frames 上继承前景背景的知识。在这个过程(学习模型)是包括了有效的全局推理的,但是这里对预测目标模型施加了严重的归纳偏差。

2023-04-24 15:56:23 2709 11

原创 单目标跟踪算法及其复现过程---STARK(二)

利用Transformer中的编码器对目标对象和搜索区域之间的全局时空特征相关性进行建模,使用Transformer中的解码器学习查询嵌入来预测目标对象的空间位置。首先,找到tracking文件夹下的create_default_local_file.py文件,需要配置workspace、data(数据集)和save(结果保存)的文件夹。使用编码器-解码器转换器,对象的预测只需使用一个简单的全卷积网络,该网络可以直接估计对象的角点。首先运行./tracking文件夹下的test.py脚本,参数设置如下。

2023-04-22 17:04:09 3030 10

原创 单目标跟踪算法及其复现过程---SiamFC(一)

在test.py文件中,就是利用训练出来的模型进行测试,需要更改预训练模型的路径,测试集的路径,以OTB100为例,最后输出的是对每一帧目标位置的坐标点。代码如下:首先需要下载got10k官方库,只需要在终端输入(注意:在终端安装各种库的时候不能使用网络代理),在环境已经配置到的情况下,只需要该其中的路径和就可以运行。这个系列博客仅为了记录各目标跟踪算法的复现(大多为跑通大佬们实现的代码),包括其中出现的很多问题和错误,学到的新知识等等。解决,而且只使用在线的方法,限制了他们可以学习的模型的丰富性。

2023-04-05 17:00:05 2226 11

原创 [论文阅读]Big Transfer (BiT):General Visual Representation Learning

预训练+微调模式;上游预训练;下游迁移;更通用的视觉表征学习;摘要:在训练视觉深度神经网络时,预训练表示的转移提高了样本效率,简化了超参数调优。回顾了在大型监督数据集上进行预训练的范式,并对目标任务上的模型进行微调。我们扩大了预训练的规模,并提出了一个简单的方法,我们称之为(BiT)。通过组合一些精心选择的组件,并使用简单的启发式传输,我们在超过20个数据集上实现了强大的性能。BiT在令人惊讶的广泛数据机制上表现良好——从每个类1个示例到总示例1million个。

2022-10-16 12:45:52 653

原创 [论文阅读] Self-Supervised Learning of Video-Induced Visual Invariances

keypoints:自监督学习 self-supervised learning;video-induced; visual invariances; VIVI; VTAB文章链接:https://arxiv.org/abs/1912.02783v2(1)基于视频推理视觉不变性,提出了一个用于可转移视觉表示的自监督学习框架。使用(视频中的隐式层次): 帧级不变性(对颜色和对比度扰动的稳定性) 镜头/剪辑级不变性(对物体方向和光照条件变化的

2022-10-15 10:27:05 224

原创 分类与聚类

分类是数据挖掘中最重要的任务之一聚类是在无监督学习中应用最广的方法之一

2022-09-12 21:16:41 1861

原创 DenseNet论文解读

DenseNet是CVPR2017的一篇oral paper,在获得更小的分类错误率的同时,网络模型的参数量也远小于之前的SOTA分类网络,如ResNets和Highway Networks等,并且由此获得了CVPR2017最佳论文奖。

2022-09-02 11:09:25 842

原创 win10下Yolov5-5.0的使用问题

问题一:requirements.txt中pycocotools的安装。问题二:UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 233: illegal multibyte sequence。问题三:_pickle.UnpicklingError: STACK_GLOBAL requires str

2022-08-06 16:20:18 1452

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除