思艺妄为-CSDN博客

原创乱糟糟的YOLOv8-detect和pose训练自己的数据集

pose的数据集跟之前的有一点区别，首先标注关键点时，要先使用矩形框（rectangle）框出目标，然后在这个矩形框里面打关键点，必须保证每一张照片当中点的数量是相同的，就是说1234得对应上，每个点按顺序进行标注，总数需要是一样多的。3可以被遮挡，但是也得标，然后把这个点变成不可见就可以了。准备好了，直接terminal里输入就行，但是如果想改点啥比如说希望预测的时候不输出的类别，就输出框，他就改不了，因为这个ultra这个包都给整好了，封装的忒严重，想在这个模型上进行改进就得给他卸了，然后再搞。

2023-08-28 20:37:43 2680 4

原创 Python删除txt文件中特定字符

我要搞关键点检测，但是问题在于我的关键点个数每张图不一样，就导致我转出来的txt后面关键点不够了他就被补了0，如下图所示，要变成右边的那种。这个问题居然csdn没一个人写！我的半天时间都浪费在这破玩意上，但是说白了是因为我太菜，毁灭吧！拿走直接用，需要更改的就文件夹路径那块。

2023-08-02 21:56:49 528

原创 FastSAM 论文解读

论文名称：Fast Segment Anything。

2023-07-24 17:19:07 601

原创 MedSAM 论文详解

论文名称：Segment Anything in Medical Images立个flag，要快快之前把这个玩意搞好，用在我自己的数据集上！

2023-07-10 12:30:04 3114 5

原创 DETRs Beat YOLOs on Real-time Object Detection论文详解

最近，基于端到端Transformer的检测器（DETRs）已经取得了显著的性能。然而，DETRs的高计算成本问题尚未得到有效解决，限制了它们的实际应用，并阻止它们充分利用无后处理的优点，例如非最大值抑制（NMS）。本文首先分析了现代实时目标检测器中NMS对推理速度的影响，并建立了一个端到端速度基准。为避免NMS引起的推理延迟，我们提出了Real-Time DEtection TRansformer（RT-DETR），这是我们所知道的第一个实时端到端物体检测器。

2023-07-01 16:39:35 1022

原创 Prefix-Tuning论文解读

微调是利用大型预训练语言模型来执行下游任务时所使用的方法。但是，它会修改所有语言模型参数，因此需要为每个任务存储完整的模型。本文提出prefix-tuning，一种用于自然语言处理任务的可以替代fine-tune的轻量级方法，它冻结语言模型的参数而代之以优化一系列连续的任务特定(task-specific)向量，称之为prefix。前缀微调从提示学习中获得启发，引导后续的token关注这个prefix，就好像它是虚拟的单词一样。

2023-06-12 11:00:11 1267

原创大模型时代的科研基础之：Prompt Engineering

乱七八糟总结一下，想不起来就看看。

2023-05-30 19:55:19 1220

原创 Segment Anything论文详解（SAM）

分割是一个广泛的领域：交互式分割，边缘检测，超像素化，目标区域生成，前景分割，语义分割，实例分割，全景分割等。不同于多任务系统（单个模型执行一组固定的任务，如联合语义、实例和全光分割，训练和测试任务相同），我们的可提示分割的模型，可以作为一个更大的系统中的一个组件，在推理时执行一个新的、不同的任务，例如，执行实例分割，一个可提示分割模型与现有的目标检测器相结合。提示只是指定要在图像中分割的内容，可以有效的输出，即使提示是模棱两可的，可以指多个对象，输出应该是一个合理的至少一个对象的mask。

2023-04-12 21:06:28 3448 1

原创 Composited FishNet论文详解

论文名称：1.Abstact(研究问题的重要意义，现在存在的问题，引出研究内容，研究内容的好处，本文创新点，实验结果)为了实现复杂水下环境下的鱼类识别和定位，本文提出了一种基于复合主干和增强路径聚合网络的复合鱼类检测框架——复合鱼网。通过对残差网络(ResNet)的改进，设计了一种新的复合骨干网络(CBresnet)来学习场景变化信息。

2023-04-03 11:34:34 408

原创【CVPR 2023】FasterNet论文详解

论文名称：Run, Don’t Walk: Chasing Higher FLOPS for Faster Neural Networks作者发现由于效率低下的每秒浮点运算，每秒浮点运算的减少并不一定会导致类似水平的延迟减少。提出通过同时减少冗余计算和内存访问有效地提取空间特征。然后基于PConv进一步提出FasterNet，再准的基础上更快。

2023-03-31 18:42:32 8260 4

原创 Python 视频提取图片，图片重命名再放到同一文件夹

本篇博客可谓造福人类，非常方便。

2023-03-08 16:28:14 409

原创目标检测YOLOV7 添加计数功能

开学我就研二下了，感叹时光飞逝。因为好多人在评论里问，所以出一篇！注：本文章应该是适用所有YOLO系列。

2023-02-08 19:29:48 2968 21

原创图像分割--入门了解

语义分割对图1进行类别划分，在属于小男孩的像素点标蓝色，背景标黄，这就形成了类，但是三个帅哥分不出，都一个颜色。先检测目标物体，在进行分割，只对特定的物体进行分类，相对语义分割，实例分割需要标注出图上同一物体的不同个体（帅哥1，帅哥2，帅哥3）。但实例分割只对图像中的对象进行检测，并对检测到的对象进行分割，而全景分割是对图中的所有物体包括背景都要进行检测和分割。全景分割跟语义分割的区别就是，一个识别背景一个不识别背景，所以标注全景分割的数据集的时候，只需先将整张图片全部框起上，然后在标注剩余的目标就可以。

2023-02-08 19:00:40 766

原创关于mmpose

打开labelme，先画大框，选择Edit下的Create Rectangle选项，将需要标注的位置框起来，然后选择Create Point选项，在这个框里点关键点，每个点命不可以相同，保存生成json文件，还不能直接用，需要将生成的json文件转化为coco的json文件。环境配置网上有很多，搞一搞就行，训练自己的数据集的时候，有一个数据集注册的机制，先模仿原版写出自己要检测的动物，需要修改名字和关键点个数，然后在animal/_init_.py文件里导入新建的文件。

2022-12-30 11:43:07 946 3

原创 3D深度相机---结构光

去年的仪器仪表的课有汇报，我还专门为3D深度像机做了个调研，一直用inter realsense的，最近老师让看结构光方案的，正好总结一下。由于基于双目立体视觉的深度相机对环境光照强度比较敏感，且比较依赖图像本身的特征，因此在光照不足、缺乏纹理等情况下很难提取到有效鲁棒的特征，从而导致匹配误差增大甚至匹配失败。基于结构光法的深度相机就是为了解决上述双目匹配算法的复杂度和鲁棒性问题而提出的，结构光法不依赖于物体本身的颜色和纹理，采用了主动投影已知图案的方法来实现快速鲁棒的匹配特征点，能够达到较高的精度，也大大

2022-12-03 20:59:52 8220

原创 CLIP后续--LSeg，GroupViT，ViLD，CLIPasso

这个博客开了有两个月，一直没写成，最近封寝给它完成~躺平第三天。

2022-11-27 22:15:26 1740

原创【CVPR 2022】QueryDet:加速高分辨率小目标检测

背景：对小目标检测的性能和效果不满意解决办法：先用低分辨率的图片预测到小目标的粗定位；用这些粗位置稀疏引导的高分辨率特征计算出准确的预测结果。小目标检测中出现性能衰减原因：（1）由于下采样操作导致引导小目标的特征消失，或被background中的噪声污染。（2）低分辨率特征对应的感受野无法与小目标的尺度相匹配。（3）小目标较小的偏差就会导致IoU上较大的扰动，导致小目标检测先天难于大目标。现有的小目标检测方法通常通过放大输入图像尺寸或减少降采样率来维持较大分辨率的特征，进而提升小目标检测的性能。

2022-11-25 15:04:42 2048 1

原创 TResNet: ResNet改进，实现高精度的同时保持高 GPU 利用率

终于开题，抓紧发文，然后放飞，来由就是想搞一篇论文，但是增加了某个东西之后吧，速度变慢了，所以导师提议加个这玩意看看能不能快点。论文题目：TResNet: High Performance GPU-Dedicated Architecture包含三个变体，TResNet-M、TResNet-L 和 TResNet-XL，它们仅在深度和通道数上有所不同。

2022-11-23 11:40:58 1723

原创 Intel RealSense实感深度摄像头自校准（Self-Calibration）步骤详细，D400系列适用

喜提国庆8天工作乐，改代码真的很帅，才华皆一切，这篇博客的由来是因为我做实验了，然后摄像头的有效距离贼差，打了技术人员的电话说他们的有效距离4m，然后边缘相差为百分之2，简直离谱，我的设备有效距离大约1m，中间有时候都不准，别说边缘了，所以calibration一下看看。

2022-10-18 10:56:52 2157 14

原创 RepLKNet论文详解:31×31的超大卷积核模型

（1）大卷积有更大的感受野（2）大卷积能够学到更多的形状信息（3）密集（普通）卷积和空洞卷积空洞卷积是一个常用的扩大卷积范围的方法，论文对空洞深度卷积和普通深度卷积进行了对比，尽管最大感受域可能一样，但空洞深度卷积的表达能力要弱很多，准确率下降非常明显，也就是说虽然空洞卷积的感受域较大，但其计算用的特征非常少。

2022-09-25 20:33:22 3436 1

原创 CLIP，GLIP论文解读，清晰明了

CLIP：Contrastive Language-Image Pre-training，论文名称：Learning Transferable Visual Models From Natural Language Supervision。GLIP论文名称：Grounded Language-Image Pre-training

2022-09-15 15:00:53 6851 10

原创 Yolo v7训练自己的数据集

没错v7我来了，逃不掉的v7，整x的时候我就想折不会还得用v7吧，果然v7他来了哈哈。

2022-08-30 22:25:02 1143 3

原创 Transformer变种—Swin Transformer

论文名称：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows原论文地址： https://arxiv.org/abs/2103.14030这篇文章很厉害，是ICCV 2021 best paper，读了之后四舍五入我也会变厉害本文大量参考，仅供自我学习使用，博主有视频，讲的贼明白~...

2022-08-25 18:23:07 2533 2

原创 DeLighT：深度和轻量化的Transformer

本文提出了一个更深更轻量的Transformer-DeLighT，DeLighT更有效地在每个TransformerBlock中分配参数（1）使用DeLighT转换进行深度和轻量级的转换；（2）使用Block-wiseScaling进行跨Block，允许在输入附近有较浅和较窄的DeLighTBlock，以及在输出附近有较宽和较深的DeLighTBlock。总的来说，DeLighT网络的深度是标准Transformer的2.5到4倍，但参数和操作更少。...

2022-08-02 11:22:07 2441 1

原创 Yolo x 训练起来，详细的不行，且内含800错误解决办法

我已经自认为掌握了yolov5，以为可以跟配环境啥的说再见，现实很残酷哈哈哈，要把之前用的yolov5换掉换成yolox,没想到啊没想到，可以用世事无常来形容了，于是一届菜鸡又开始搞yolox。

2022-07-28 12:36:57 4257 19

原创 VIT：Vision Transformer超级详解含代码

论文原文：An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale具体步骤：由于一个patch是正方形，不能直接作为TRM的输入，需要把这一个patch转化成一个固定维度的embedding，然后用embedding作为TRM的输入。方法1：把patch拉平，二维转一维（eg.原来16x16变为256）；方法2：把拉平之后的这个维度映射到我自己规定的一个向量长度。注：在此过程中有两个实验方式，这里用的是Linear

2022-07-11 20:23:08 1464 1

原创变形金刚Transformer详解

写了上一篇，就必有这一篇~我们输入一个I love you，输出我爱你，输入一段声音，输出得到你真美。输入长度跟输出长度没有决定性的关系，由机器决定输出的是什么。encoder是由6层独立的layers构成。每层由两个子层，就是上图左边的两个。第一个是一个多头 self-attention结构。第二个是一个简单的基于点的全连接前向网络。输入b经过self-attention后得到a，借鉴了残差网络的思想使输入跟self-attention的输出相加得到结果在输入至 layar Normalization，得

2022-06-24 22:00:25 1043

原创自注意力机制超级详解（Self-attention）

Attention ia all you need论文原文仅供自我学习使用Self-attention想要解决的问题：目前input都是一个向量，输出可能是一个数值，一个类别，那么如果输入是一排向量呢，且输入的向量数可以改变的话，如何处理。例子：一句英文，一段声音信号，图比如输入一句英文，那么句子单词数不一样，每次输入的向量数就不同。如何把单词看作向量（1）One-hot Encoding一个单词可以看作一个向量，比如这个世界上有100个单词，开一个100维的向量，每一个维度对应一个词汇，把他们不同位置上搞

2022-06-21 18:03:13 7756 1

原创双目摄像头-对几何约束

二、对几何约束因为我最终要整的还是双目摄像头，那么想要寻找两摄像机拍摄的两幅图像之间的对应关系，最直接的方法就是逐点匹配，一个点一个点匹配，十分繁琐，如果加以一定的约束条件对极约束，搜索的范围可以大大减小。前提：相机C1,C2在同一直线上：两相机共平面且光轴平行，参数相同（因为我最后要搞双目的）基线[baseline]：直线C1C2为基线。对极平面：任何包含基线的平面都称为对极平面。对极线：对极平面与图像的交线。对极点：摄像机的基线与每幅图像的交点极线约束：两极线上点的对应关系。

2022-06-02 21:36:22 868

原创相机畸变＋张正友标定（含源代码）

我们知道了相机是如何成像的之后，要对他进行标定，为什么要进行相机标定呢？比如，当我们拿到一张图片，进行识别之后，得到的两部分之间的距离为多少多少像素，但是这多少多少像素究竟对应实际世界中的多少米呢？这就需要利用相机标定的结果来将像素坐标转换到物理坐标来计算距离（当然这里值得说明，仅仅利用单目相机标定的结果，是无法直接从像素坐标转化到物理坐标的，因为透视投影丢失了一个维度的坐标，所以测距其实需要双目相机）。所以相机标定的第一个目的就是获得相机的内参矩阵和外参矩阵。一、畸变畸变一般可以分为：径向畸变、切

2022-03-10 14:54:12 9079 4

原创相机成像---世界坐标系、相机坐标系、图像坐标系和像素坐标系之间的转换关系

新学期第一天开始写的这篇文章，看看我啥时候能把他发出去。假期当然是啥也没干了，之前还信誓旦旦说回家一定能学习，学个毛线。开始学习啦，去年年末把环境配置好了之后，实验发现他不准，用的D435i摄像头是红外的，在水里误差太大，所以目标的话就是要给他整准，首先的话学习一下双目摄像头的成像原理~c1、c2是左右两个双目相机（位置是对齐的）。相机焦距f，相机之间距离为b，右上角为目标位置P（x,y），目标的水平坐标为x，相机离目标垂直距离（所求目标距离相机的深度）为z。如果要计算深度z，必须.

2022-03-04 15:53:44 14141 9

原创 NVIDIA Jetson Xavier NX 安yolo v5 +D435i摄像头 pyrealsense2 亲测好用

在2021年的倒数第三天，我搞完了这学期我要搞的环境部分，以此文章，单纯纪念，这里真的记录了我一阶段所干的事情，想出个error合集，但是error实在太多，本着解决不了就重新来过的态度，也跳过了好多两三天解决不了的，要是能有一个统计用csdn次数就好了，我感觉我每天都在csdn上，连英语作文都是csdn上的哈哈哈，2022会更好。目标：在NX上实现yolo v5和D435i摄像头的调用我的上一篇文章用了miniforge管理环境，确实环境管理的很不错，但是python的版本太多了，4个版本，而且我

2021-12-29 14:18:25 3973 12

空空如也

空空如也