- 博客(18)
- 收藏
- 关注
原创 FCOS:全卷积单阶段目标检测(2019 ICCV)
提出了一种全卷积单阶段目标检测器(FCOS),以逐像素预测的方式解决目标检测问题,类似于语义分割。几乎所有最先进的目标检测器(如 RetinaNet、SSD、YOLOv3 和 Faster R-CNN)都依赖于预定义的锚框。相比之下,我们提出的检测器 FCOS 无需锚框,也无需候选框生成。通过消除预定义的锚框,FCOS 完全避免了与锚框相关的复杂计算,例如训练期间的重叠计算。更重要的是,我们还避免了与锚框相关的所有超参数,这些超参数通常对最终检测性能非常敏感。
2025-01-13 20:32:43
852
原创 深度学习模型:从入门到精通
想象一下,你正在教一个孩子识别猫。你会给他看很多猫的图片,并告诉他“这是猫”。经过反复的学习,孩子最终能够自己认出猫。深度学习模型的工作原理与此类似,只不过它学习的是数据中的复杂模式,而非具体的物体。深度学习模型是一种人工神经网络,它由多个“层”组成,每一层都包含许多“神经元”。这些神经元相互连接,就像我们大脑中的神经元一样。通过大量的数据训练,深度学习模型可以学习到数据中的特征,并用于预测或分类等任务。深度学习模型是人工智能领域的一颗璀璨明珠,它正在改变着世界,也改变着我们的生活。
2025-01-13 16:46:41
611
原创 Windows下配置TensorFlow环境
配置TensorFlow环境需要去看一下版本对应关系(最重要),在 Windows 环境中从源代码构建 | TensorFlow从上面的网址进入,将右上角的语言调整为英文就可以看到更多GPU版本TensorFlow的对应关系,如下选择版本:cuda 11.2 cuDNN8.1 Python3.9自行选择版本:CUDA:CUDA Toolkit Archive | NVIDIA DevelopercuDNN:cuDNN 9.6.0 Downloads | NVIDIA DeveloperAnaconda:
2025-01-06 16:59:08
319
原创 YOLOv8剪枝之后只使用pt模型进行回调训练,不使用yaml
YOLOv8模型的剪枝是一个涉及多个步骤的复杂过程,主要包括稀疏训练、剪枝和微调。
2024-07-24 09:11:38
683
原创 YOLOv8.pt模型转成ncnn模型需要的onnx模型需要改的内容
修改后,模型不需要重新训练,运行以下,导出即可,其余步骤不变,再次训练和识别的时候改回原版,否则报错。
2024-07-16 14:06:48
728
3
原创 使用ls和wc指令统计目录内容和计数
此外,`wc`命令默认统计行数,使用`-w`选项可以统计单词数,使用`-c`选项可以统计字节数。`-R`选项递归地列出所有子目录的内容,`grep 'total'`匹配`ls -lR`命令输出的`total`行。`-a`选项显示所有文件,包括隐藏文件(以`.`开头),`grep '^\.'`匹配隐藏文件。使用`grep '^d'`来匹配以字母`d`开头的行,这表示目录。`-a`显示所有文件,`grep -v '^\.'`排除隐藏文件。`grep '.log$'`确保匹配以`.log`结尾的文件。
2024-07-11 16:39:18
703
原创 ubuntu系统下统计文件夹内的文件个数
替换为你实际要统计的目录路径。这些方法中的大多数都会递归地统计目录中所有文件的数量,包括子目录中的文件。如果你只想统计顶级目录中的文件数量,可以去掉递归的部分。在Ubuntu系统下,你可以使用命令行来统计一个目录中文件的个数。命令以树状图列出目录的内容,并在最后显示目录和文件的数量。选项用于显示所有文件,包括以点(.)开头的隐藏文件。这个方法将显示每个子目录的文件数量,并通过。命令可以直接统计目录中的文件数量。命令列出目录中的所有文件,并使用。用于排除目录本身,只统计文件。: 打开终端,然后使用。
2024-07-11 16:35:30
2220
原创 Python脚本系列(二) .tif和.tiff文件转.jpg
本脚本利用Python的Pillow库(PIL的一个分支),提供了一个简单而高效的解决方案,用于批量转换图像文件格式。文件通常由于其较高的存储体积和复杂的压缩选项在专业图像处理中使用,但在日常使用和网络分享中,格式因其较好的压缩率和广泛的兼容性而更受欢迎。格式的文件转换为更通用、体积更小的。
2024-06-19 14:11:22
631
2
原创 Python脚本系列(一) YOLO_txt标签与VOC_xml标签互转
YOLO (You Only Look Once) 是一种流行的目标检测算法,它通常使用纯文本格式的标签文件来标注图像中的对象。而VOC (Visual Object Classes) 是一个广泛使用的计算机视觉数据集,它使用XML格式的标签文件来标注图像中的对象。这两种格式的标签文件互转是一个常见的需求,特别是在数据集的转换或迁移过程中。
2024-06-17 17:42:41
518
原创 Siamese Transformer Pyramid Networks for Real-Time UAV Tracking
本文没有迁移复杂的transformer的编码器和解码器范式,而是利用transformer的编码器,并设计了一个基于注意力的特征金字塔融合网络,以更有效地学习目标特定模型。1、使用轻量级卷积神经网络ShuffleNetv2中的固有的特征金字塔,再用transformer对特征金字塔进行强化,构建鲁棒性较强的特定目标的外观模型。的启发,最近的作品引入了基于注意力的模块,并取得了较好的成果。有三种方法可以降低计算成本:(1)减小查询大小,(2)减小C的维数,或(3)减小键和值的大小。以避免计算/存储器开销。
2023-04-26 10:06:03
547
原创 单目标跟踪算法及其复现过程---ToMP (CVPR2022, Transforming Model Prediction for Tracking)(三)
基于优化的跟踪方法通过整合目标模型预测模块已被广泛成功,通过最小化目标函数来提供有效的全局推理。虽然这种归纳偏差整合了有价值的领域知识,但它限制了跟踪网络的表达能力。这里描述的基于优化的跟踪方法,作者在下文解释中主要针对基于判别相关滤波的跟踪模型,即判别相关滤波方法的目标函数在previous frames 上继承前景背景的知识。在这个过程(学习模型)是包括了有效的全局推理的,但是这里对预测目标模型施加了严重的归纳偏差。
2023-04-24 15:56:23
5151
11
原创 单目标跟踪算法及其复现过程---STARK(二)
利用Transformer中的编码器对目标对象和搜索区域之间的全局时空特征相关性进行建模,使用Transformer中的解码器学习查询嵌入来预测目标对象的空间位置。首先,找到tracking文件夹下的create_default_local_file.py文件,需要配置workspace、data(数据集)和save(结果保存)的文件夹。使用编码器-解码器转换器,对象的预测只需使用一个简单的全卷积网络,该网络可以直接估计对象的角点。首先运行./tracking文件夹下的test.py脚本,参数设置如下。
2023-04-22 17:04:09
4808
15
原创 单目标跟踪算法及其复现过程---SiamFC(一)
在test.py文件中,就是利用训练出来的模型进行测试,需要更改预训练模型的路径,测试集的路径,以OTB100为例,最后输出的是对每一帧目标位置的坐标点。代码如下:首先需要下载got10k官方库,只需要在终端输入(注意:在终端安装各种库的时候不能使用网络代理),在环境已经配置到的情况下,只需要该其中的路径和就可以运行。这个系列博客仅为了记录各目标跟踪算法的复现(大多为跑通大佬们实现的代码),包括其中出现的很多问题和错误,学到的新知识等等。解决,而且只使用在线的方法,限制了他们可以学习的模型的丰富性。
2023-04-05 17:00:05
4222
16
原创 [论文阅读]Big Transfer (BiT):General Visual Representation Learning
预训练+微调模式;上游预训练;下游迁移;更通用的视觉表征学习;摘要:在训练视觉深度神经网络时,预训练表示的转移提高了样本效率,简化了超参数调优。回顾了在大型监督数据集上进行预训练的范式,并对目标任务上的模型进行微调。我们扩大了预训练的规模,并提出了一个简单的方法,我们称之为(BiT)。通过组合一些精心选择的组件,并使用简单的启发式传输,我们在超过20个数据集上实现了强大的性能。BiT在令人惊讶的广泛数据机制上表现良好——从每个类1个示例到总示例1million个。
2022-10-16 12:45:52
903
原创 [论文阅读] Self-Supervised Learning of Video-Induced Visual Invariances
keypoints:自监督学习 self-supervised learning;video-induced; visual invariances; VIVI; VTAB文章链接:https://arxiv.org/abs/1912.02783v2(1)基于视频推理视觉不变性,提出了一个用于可转移视觉表示的自监督学习框架。使用(视频中的隐式层次): 帧级不变性(对颜色和对比度扰动的稳定性) 镜头/剪辑级不变性(对物体方向和光照条件变化的
2022-10-15 10:27:05
327
原创 DenseNet论文解读
DenseNet是CVPR2017的一篇oral paper,在获得更小的分类错误率的同时,网络模型的参数量也远小于之前的SOTA分类网络,如ResNets和Highway Networks等,并且由此获得了CVPR2017最佳论文奖。
2022-09-02 11:09:25
976
原创 win10下Yolov5-5.0的使用问题
问题一:requirements.txt中pycocotools的安装。问题二:UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 233: illegal multibyte sequence。问题三:_pickle.UnpicklingError: STACK_GLOBAL requires str
2022-08-06 16:20:18
1833
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人