CV知识学习和论文阅读
文章平均质量分 81
学习CV的基础知识和论文
量子-Alex
这个作者很懒,什么都没留下…
展开
-
【目标检测】NMS算法的理论讲解
②根据置信度的阈值过滤已有的预测框,根据我们设置的置信度的阈值T,假设我们现在设置阈值T为0.7,那么现有的置信度小于0.7的检测框就都被排除掉了,剩下的大于0.7的才能入选到预测框的集合B中去。⑤从B集合中选择置信度最高的检测框b,放到我们最终需要的返回结果F集合中,b肯定有冗余框,但是不要紧,为什么呢?③对于入选B集合的检测框,我们按照置信度分数进行排序,因为如果要保留检测框,肯定是希望保留置信度更高的。⑥对于B集合中剩下的检测框,我们逐个将其与b做IoU的计算,这个计算结果只要大于IoU的阈值。原创 2024-03-26 16:44:49 · 740 阅读 · 0 评论 -
【论文翻译】UP-DETR—Unsupervised Pre-training for Detection Transformers
我们提出了一种新的前置任务,称为随机查询图像块检测,以无监督地预训练DETR中的Transformer model。在无监督预训练的情况下,UP-DETR在PASCAL VOC上以更高的精度和更快的收敛速度显著优于DETR。对于具有足够训练数据的挑战性COCO数据集,即使训练时间表很长,UP-DETR仍然超过DETR。这表明预训练Transformer model对于目标检测中不同规模的训练数据是不可或缺的。此外,UP-DETR还为一次性检测提供了统一的视角。它显著提高了一次性检测任务的性能。原创 2024-03-15 22:05:12 · 1480 阅读 · 0 评论 -
【论文翻译】【多目标跟踪】Simple online and Realtime tracking
在本文中,提出了一个简单的在线跟踪框架,重点是帧到帧的预测和关联。我们表明,跟踪质量高度依赖于检测性能,通过利用检测的最新发展,仅用经典的跟踪方法就可以实现最先进的跟踪质量。所提出的框架在速度和准确性方面都达到了同类最佳的性能,而其他方法通常会牺牲一个来换取另一个。所提出的框架的简单性使其非常适合作为基线,允许新的方法关注对象重新识别以处理长期遮挡。由于我们的实验强调了检测质量在跟踪中的重要性,未来的工作将研究紧密耦合的检测和跟踪框架。原创 2024-03-14 20:44:15 · 1145 阅读 · 0 评论 -
【CV论文阅读】【计算机视觉中的Transformer应用综述】(1)
摘要——自然语言任务的Transformer model模型的惊人结果引起了视觉社区的兴趣,以研究它们在计算机视觉问题中的应用。在它们的显著优点中,与递归网络例如长短期记忆(LSTM)相比,Transformer能够模拟输入序列元素之间的长依赖性,并支持序列的并行处理。与卷积网络不同,Transformer的设计需要最小的偏差,自然适合作为集函数。此外,Transformer的简单设计允许使用类似的处理块处理多种形式(例如,图像、视频、文本和语音),并表现出对超大容量网络和巨大数据集的出色可扩展性。原创 2024-03-11 23:38:38 · 1041 阅读 · 0 评论 -
【Transformer】single self-attention的Pytorch实现
这里面 X的输入是(batchsize,num,dim_in)num是一维序列中token的个数,这里a1到a4就4个,dim_in是每个token的特征维数,这里每一个a都是1*2的向量,特征维度为2,dim_in就为2。对于Q、K、V的维度,W1 W2 W3分别是(dim_in,dq) (dim_in,dk) (dim_in,dv) 只不过dq肯定等于dk。,并且从输入中提出q,k,v,其中q,k的维度是一定要保持一致的,是依靠k.transpose(-2,-1)实现的。原创 2024-03-09 21:02:03 · 1166 阅读 · 0 评论 -
【Transformer】single self-attention的理解与计算步骤
参考B站Enzo_Mi老师【self-Attention|自注意力机制 |位置编码 | 理论 + 代码】建议大家去看老师的原视频,讲解非常清晰,这里个人整理一下思路。原创 2024-03-09 20:42:13 · 741 阅读 · 0 评论 -
【ViT】Vision Transformer的实现01 patch embedding
输入的通道数是3 embed_dim既是我们要求的输出通道数即每个token的特征维数,同时在卷积运算里面这代表着这层有多少个卷积核,224的图像,我们设置每个patch图像块的尺寸是16,因此呢,我们可以从H和W两个维度将原图像进行分割,然后flatten(2),在第二维上进行展开 (8,768,16,16)变成了(8,768,16*16)然后卷积核的大小就是patch的大小16,步长的大小也是patch的大小16,这个意思就相当于用16。patch_size是我们分割的图像块的大小 16 像素。原创 2024-03-08 20:54:17 · 762 阅读 · 0 评论 -
【论文精读】【ViT】AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
虽然Transformer model体系结构已经成为自然语言处理任务的事实上的标准,但它在计算机视觉中的应用仍然有限。在视觉中,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。我们表明,这种对CNN的依赖是不必要的,直接应用于图像块序列的纯Transformer model可以很好地执行图像分类任务。原创 2024-03-08 19:02:22 · 1146 阅读 · 0 评论 -
【论文精读】【DETR】End-to-End Object Detection with Transformers
我们提出了一种新的方法,将目标检测视为一个直接的集合预测问题。我们的方法简化了检测管道,有效地消除了对许多手工设计组件的需求,如非极大抑制程序或锚生成,它们显式地编码了我们关于任务的先验知识。新框架的主要成分被称为检测Transformer model或DETR,是基于集合的全局损失,通过二分匹配强制进行独特的预测,以及Transformer model编码器——解码器架构。给定一组固定的学习对象查询,DETR推理对象和全局图像上下文的关系,以并行直接输出最终的预测集。原创 2024-03-08 00:33:16 · 1290 阅读 · 0 评论 -
【论文精读】【Yolov1】You Only Look Once Unified, Real-Time Object Detection
我们提出了YOLO,一种新的目标检测方法。先前关于目标检测的工作重新利用分类器来执行检测。相反,我们将目标检测框架确定为空间分离的边界框和相关类别概率的回归问题。单个神经网络在一次评估中直接从完整图像预测边界框和类别概率。由于整个检测流水线是一个单一的网络,可以直接在检测性能上进行端到端的优化。我们的统一架构速度极快。我们的基本YOLO模型以每秒45帧的速度实时处理图像。该网络的一个较小版本,Fast YOLO,每秒处理惊人的155帧,同时仍然实现了其他实时探测器的两倍。原创 2024-03-06 23:36:58 · 1210 阅读 · 0 评论 -
图解目标检测的现代历史
根据图像的主要对象对图像进行分类。原创 2024-03-06 08:35:49 · 1463 阅读 · 0 评论 -
【论文精读】【Faster RCNN】Faster R-CNN :Towards Real-Time Object Detection with Region Proposal Networks
最先进的目标检测网络依赖于候选框算法来假设目标位置。像SPPnet[7]和Fast R-CNN[5]这样的进步已经减少了这些检测网络的运行时间,暴露了候选框计算作为一个瓶颈。在这项工作中,我们介绍了一个候选框网络(RPN),它与检测网络共享全图像卷积特征,从而实现几乎免费的候选框。RPN是一个完全卷积的网络,它同时预测每个位置的目标边界和目标分数。RPN被端到端训练以生成高质量的候选框,这些建议被Fast R-CNN用于检测。通过简单的交替优化,可以训练RPN和Fast R-CNN共享卷积特征。原创 2024-03-05 16:48:31 · 914 阅读 · 0 评论 -
【CV论文精读】【Faster RCNN】Fast R-CNN
提出了一种基于区域的快速卷积网络(Fast R-CNN)目标检测方法。Fast R-CNN建立在以前的工作基础上,使用深度卷积网络有效地对目标候选框进行分类。与以前的工作相比,Fast R-CNN采用了几项创新来提高训练和测试速度,同时也提高了检测准确性。Fast R-CNN训练非常深的VGG16网络的速度比R-CNN快9倍,在测试时快213倍,并在PASCAL VOC 2012上实现了更高的映射。与SPPnet相比,Fast R-CNN训练VGG16的速度快3倍,测试速度快10倍,并且更准确。原创 2024-03-05 11:22:32 · 864 阅读 · 0 评论 -
【CV论文精读】【SPPnet】Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
现有的深度卷积神经网络(CNN)需要固定大小(例如224 × 224)的输入图像。这种要求是“人为的”,可能会损害任意大小/尺度的图像或子图像的识别精度。在这项工作中,我们为网络配备了一个更有原则的池化策略,“空间金字塔池化”,以消除上述要求。新的网络结构称为SPP-net,可以生成固定长度的表示,而不管图像大小/比例。通过消除固定大小的限制,我们可以改进所有基于CNN的图像分类方法。原创 2024-03-04 20:11:03 · 608 阅读 · 0 评论 -
【论文精读】【RCNN】Rich feature hierarchies for accurate object detection and semantic segmentation
近年来,目标检测性能停滞不前。性能最好的系统是将多个低级图像特征与来自目标检测器和场景分类器的高级上下文相结合的复杂集成。本文提出了一种简单且可扩展的目标检测算法,该算法比PASCAL VOC 2012上以前的最佳结果相对改进了30%。我们通过两种思路实现了这一成绩。第一种是将高表示能力卷积神经网络应用于自下而上的候选框,以便定位和分割目标。第二个是训练的范例-当标记的训练数据稀缺时,训练大型CNN。原创 2024-03-04 11:28:39 · 1352 阅读 · 0 评论 -
【论文精读】【Overfeat】Integrated Recognition, Localization and Detection using Convolutional Networks
我们提出了一个使用卷积网络进行分类、定位和检测的集成框架。我们展示了如何在ConvNet中有效地实现多尺度和滑动窗口方法。我们还引入了一种新的深度学习方法,通过学习预测目标边界来进行定位。然后累积而不是抑制边界框,以增加检测置信度。我们表明,不同的任务可以同时学习使用一个单一的共享网络。该集成框架赢得了2013年ImageNet大规模视觉识别挑战赛(ILSVRC2013)的定位任务,并在检测和分类任务中获得了极具竞争力的结果。在赛后工作中,我们为检测任务建立了一个新的艺术状态。原创 2024-03-01 20:54:42 · 1400 阅读 · 0 评论 -
【CV论文精读】【语义分割】【FCN】Fully Convolutional Networks for Semantic Segmentation
卷积网络是强大的可视化模型,可以产生特征层次。我们表明,卷积网络本身,经过端到端、像素到像素的训练,在语义分割方面超过了最先进的水平。我们的关键见解是构建“完全卷积”网络,该网络接受任意大小的输入,并通过高效的推理和学习产生相应大小的输出。我们定义并详述了全卷积网络的空间,解释了它们在空间密集预测任务中的应用,并绘制了与先前模型的联系。我们将当代分类网络(AlexNet[20]、VGG[31]和GoogLeNet[32])改造成完全卷积的网络,并通过微调[3]将它们学习到的表示转移到分割任务中。原创 2024-03-01 12:44:31 · 924 阅读 · 0 评论 -
【CV论文精读】【VGG】VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION用于大规模图像识别的超深卷积网络
在这项工作中,我们研究了卷积网络深度对其在大规模图像识别设置中的准确性的影响。我们的主要贡献是使用具有非常小(3 × 3)卷积滤波器的架构对深度增加的网络进行全面评估,这表明通过将深度推高到16-19个权重层,可以实现对现有技术配置的显著改进。这些发现是我们提交ImageNet Challenge 2014的基础,我们的团队分别获得了图像定位和分类赛道的第一名和第二名。我们还表明,我们的表示可以很好地推广到其他数据集,在那里它们可以获得最先进的结果。原创 2024-02-29 20:48:13 · 1234 阅读 · 0 评论 -
【CV论文精读】【AlexNet】ImageNet Classification with Deep Convolutional Neural Networks
我们训练了一个大型深度卷积神经网络,将ImageNet LSVRC-2010竞赛中的120万张高分辨率图像分为1000个不同的类别。在测试数据上,我们分别实现了37.5%和17.0%的top-1和top-5错误率,这比以前的技术水平好得多。该神经网络拥有6000万个参数和65万个神经元,由五个卷积层组成,其中一些层后面是最大池化层,三个完全连接的层最终具有1000路softmax。为了让训练更快,我们使用了非饱和神经元和非常高效的GPU实现卷积运算。原创 2024-02-25 19:37:14 · 1040 阅读 · 0 评论 -
【CV论文精读】【YOLOv9】YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
今天的深度学习方法侧重于如何设计最合适的目标函数,使模型的预测结果最接近地面真实。同时,必须设计一个适当的架构,以便于获取足够的预测信息。现有方法忽略了一个事实,即当输入数据进行逐层特征提取和空间变换时,会丢失大量信息。本文将深入研究数据在深度网络中传输时数据丢失的重要问题,即信息瓶颈和可逆函数。我们提出了可编程梯度信息(PGI)的概念,以应对深度网络实现多个目标所需的各种变化。PGI可以为目标任务计算目标函数提供完整的输入信息,从而获得可靠的梯度信息来更新网络权重。原创 2024-02-22 21:41:18 · 1959 阅读 · 0 评论 -
【CV论文精读】【BEV感知】BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View
自动驾驶感知周围环境进行决策,这是视觉感知中最复杂的场景之一。范式创新在解决2D目标检测任务中的成功激励我们寻求一种优雅、可行和可扩展的范式,从根本上推动该领域的性能边界。为此,我们在本文中贡献了BEVDet范式。BEVDet在鸟瞰视图(BEV)中执行3D目标检测,其中大多数目标值被定义,并且可以方便地执行路线规划。我们只是重用现有的模块来构建它的框架,但通过构建一个独占的数据扩充策略和升级非最大抑制策略来实质性地发展它的性能。在实验中,BEVDet在准确性和时间效率之间提供了一个很好的折衷。原创 2024-02-19 22:32:44 · 1715 阅读 · 0 评论 -
【深入理解BEVFormer】BEVFormer
多模态融合和多传感器融合BEV:鸟瞰图这个特征空间与每个视角都相关早期是用后融合,目前比较流行的是特征级融合自身运动补偿:如果按照像素点进行特征对齐,需要指定偏移量 x y两个方向特征空间是自己定义的,常见的是200x200,根据自己的硬件成本去考虑,每个网格点是一个特征向量,同一个特征空间同时做多个下游任务,每一个相机视图又有多个特征,分辨率太高,导致计算成本过高,难以训练。原创 2024-02-16 15:15:23 · 404 阅读 · 0 评论 -
【CV论文精读】【BEV感知】BEVFormer:通过时空Transformer学习多摄像机图像的鸟瞰图表示
3D视觉感知任务,包括基于多摄像头图像的3D检测和地图分割,对于自动驾驶系统至关重要。在这项工作中,我们提出了一个称为BEVFormer的新框架,它通过时空Transformer学习统一的BEV表示,以支持多个自动驾驶感知任务。简而言之,BEVFormer通过预定义的网格形状的BEV queries与空间和时间进行交互,从而利用空间和时间信息。为了聚集空间信息,我们设计了空间交叉注意力,每个BEV query从跨摄像机视图的感兴趣区域中提取空间特征。原创 2024-02-16 15:08:52 · 1506 阅读 · 1 评论 -
【深入理解DETR】DETR的原理与算法实现
①端到端之前的方法都需要进行NMS操作去掉冗余的bounding box或者手工设计anchor, 这就需要了解先验知识,增加从超参数anchor的数量,原创 2024-02-15 22:56:48 · 2729 阅读 · 0 评论 -
【深入理解Attention】Transformer的理解和代码实现
attention和推荐算法有类似之处我们在电商购物平台上输入查询query,然后平台返回商品列表系统会根据query去查找所有相似度高的商品,商品自带的标签就是key,query与key相乘就得到相似度然后根据客户的评价给所有商品打分,得到value,评价高的value就高。用户喜不喜欢、评价高不高、销量高不高就是value最后,把相似度和value相乘就得到总分。原创 2024-02-15 13:42:32 · 1477 阅读 · 0 评论 -
【北邮鲁鹏老师计算机视觉课程笔记】10 Classification 分类
【北邮鲁鹏老师计算机视觉课程笔记】10 Classification 分类。原创 2024-02-14 22:02:15 · 959 阅读 · 0 评论 -
【北邮鲁鹏老师计算机视觉课程笔记】09 Segmentation 分割
【北邮鲁鹏老师计算机视觉课程笔记】09 Segmentation 分割。原创 2024-02-14 20:14:22 · 1126 阅读 · 0 评论 -
【北邮鲁鹏老师计算机视觉课程笔记】08 texture 纹理表示
【北邮鲁鹏老师计算机视觉课程笔记】08 texture 纹理表示。原创 2024-02-13 21:20:22 · 862 阅读 · 0 评论 -
【北邮鲁鹏老师计算机视觉课程笔记】07 Local feature-Blob detection
【北邮鲁鹏老师计算机视觉课程笔记】07 Local feature-Blob detection。原创 2024-02-13 18:27:33 · 886 阅读 · 0 评论 -
【CV论文精读】Adaptive Fusion of Multi-Scale YOLO for Pedestrian Detection基于多尺度自适应融合YOLO的行人检测
虽然行人检测技术在不断改进,但由于不同规模的行人和遮挡行人模式的不确定性和多样性,行人检测仍然具有挑战性。本研究遵循单次目标检测的通用框架,提出了一种分而治之的方法来解决上述问题。该模型引入了一个分割函数,可以将一幅图像中没有重叠的行人分割成两个子图像。通过使用网络架构,对所有图像和子图像的输出执行多分辨率自适应融合,以生成最终检测结果。本研究对几个具有挑战性的行人检测数据集进行了广泛的评估,最终证明了所提出的模型的有效性。原创 2024-02-13 12:02:02 · 1641 阅读 · 0 评论 -
【CV论文精读】Pedestrian Detection Based on YOLO Network Model 基于YOLO的行人检测
摘要——经过深度网络后,会有一些行人信息的丢失,会造成梯度的消失,造成行人检测不准确。本文改进了YOLO算法的网络结构,提出了一种新的网络结构YOLO-R。首先,在原有YOLO网络的基础上增加了三个直通层。直通层由路由层和重组层组成。其作用是将浅层行人特征连接到深层行人特征,并链接高分辨率和低分辨率行人特征。路线层的作用是将指定层的行人特征信息传递到当前层,然后使用重组层对特征图进行重组,使当前引入的路线层特征与下一层的特征图相匹配。原创 2024-02-12 23:57:47 · 908 阅读 · 0 评论 -
【北邮鲁鹏老师计算机视觉课程笔记】06 corner 局部特征
【北邮鲁鹏老师计算机视觉课程笔记】06 corner 局部特征。原创 2024-02-12 23:52:35 · 897 阅读 · 0 评论 -
【北邮鲁鹏老师计算机视觉课程笔记】05 Hough 霍夫变换
【北邮鲁鹏老师计算机视觉课程笔记】05 Hough 霍夫变换。原创 2024-02-11 20:30:36 · 900 阅读 · 0 评论 -
【北邮鲁鹏老师计算机视觉课程笔记】04 fitting 拟合
【北邮鲁鹏老师计算机视觉课程笔记】04 fitting 拟合。原创 2024-02-11 12:21:33 · 883 阅读 · 0 评论 -
【北邮鲁鹏老师计算机视觉课程笔记】03 edge 边缘检测
【北邮鲁鹏老师计算机视觉课程笔记】03。原创 2024-02-10 20:33:05 · 1016 阅读 · 0 评论 -
【北邮鲁鹏老师计算机视觉课程笔记】02 filter
滤除高频一个大高斯核的卷积效果可以由两个小高斯卷积核连续操作得到高斯核可以分解分解性质有什么作用?计算复杂度降低。原创 2024-02-10 18:01:21 · 958 阅读 · 0 评论 -
【北邮鲁鹏老师计算机视觉课程笔记】01 introduction
首先谈谈智能的概念,1997年的人工智能系统“深蓝”,战胜了国际象棋的世界冠军。2015年和2017年AlphaGo战胜了李世石和柯洁。但是这是不是真的智能,现在的人工智能系统能下棋,但是它不能创作诗歌超过人类最优秀的诗人。从这个角度看,这并不是真的智能,它有一个很好的搜索算法,去搜索出最优解。因此,现在只能在数理和数学计算上部分实现人类的智能。感知 + 解释人类的视觉系统机器视觉系统机器看到的是什么?是一个灰度图,是一个二维矩阵300 * 400语义鸿沟:从像素到语义内容。存在的极大的差距。原创 2024-02-10 10:17:24 · 1506 阅读 · 0 评论 -
【CV论文精读】EarlyBird: Early-Fusion for Multi-View Tracking in the Bird’s Eye View
多视图聚合有望克服多目标检测和跟踪中的遮挡和漏检挑战。多视图检测和3D对象检测中的最新方法通过将所有视图投影到地平面并在鸟瞰视图(BEV)中执行检测,实现了巨大的性能飞跃。在本文中,我们研究了BEV中的跟踪是否也能带来多目标多摄像机(MTMC)跟踪的下一个性能突破。多视图跟踪中的大多数当前方法在每个视图中执行检测和跟踪任务,并使用基于图的方法来执行跨每个视图的行人关联。这种空间关联已经通过在BEV中检测每个行人一次来解决,只留下时间关联的问题。原创 2024-02-08 23:32:15 · 1129 阅读 · 0 评论 -
【CV论文精读】【MVDet】Multiview Detection with Feature Perspective Transformation
合并多个摄像机视图进行检测减轻了拥挤场景中遮挡的影响。在多视图检测系统中,我们需要回答两个重要问题。首先,我们应该如何从多个视图中聚合线索?第二,我们应该如何从空间上相邻的位置聚集信息?为了解决这些问题,我们引入了一种新的多视图检测器MVDet。在多视图聚合期间,对于地面上的每个位置,现有方法使用多视图anchor box特征作为表示,这可能会限制性能,因为预定义的anchor box可能不准确。相比之下,通过特征图透视变换,MVDet采用无anchor点表示,特征向量直接从多个视图中的相应像素采样。原创 2024-02-08 21:33:01 · 1025 阅读 · 0 评论 -
【CV论文精读】【协同感知综述】Collaborative Perception for Autonomous Driving :Current Status and Future Trend
感知是自动驾驶系统的关键模块之一,近年来取得了很大进展。然而,单个车辆的有限能力导致感知性能提高的瓶颈。为了突破个体感知的局限,协作感知被提出,它使车辆能够共享信息来感知视线和视野之外的环境。本文综述了有前途的协作感知技术的相关工作,包括介绍了基本概念,概括了协作模式,总结了协作感知的关键要素和应用。最后,我们讨论了这一研究领域面临的挑战和问题,并给出了一些潜在的进一步方向。原创 2024-01-29 12:01:08 · 1332 阅读 · 0 评论