CV论文
其他cv方向的阅读分享
毕竟是shy哥
我会将YOLOv8改进到底!!!
山海的浩瀚,宇宙的浪漫,都在我内心翻腾。
展开
-
detr返回预测信息
【代码】detr返回预测信息。原创 2023-09-17 14:32:34 · 64 阅读 · 0 评论 -
双视觉Transformer(Dual Vision Transformer)
自我注意过程形成了这种复杂性问题的主要负担,特别是对于高分辨率输入,因为每个令牌的每个表示都是通过关注所有令牌来更新的。许多人考虑将自注意力与下采样相结合,以有效地取代所有图像块上的原始标准全局注意力。这种方式自然地实现了区域语义信息的探索,这进一步促进了局部更精细特征的学习/提取。例如,PVT [12]、[13]提出了线性空间减少注意力(SRA),其利用下采样操作(例如,平均池化或跨步卷积),如图所示。原创 2023-09-15 14:28:45 · 995 阅读 · 0 评论 -
FPN模型
在FPN技术出现之前,大多数检测算法的检测头都位于网络的最顶层(最深层),虽说最深层的特征具备更丰富的语义信息,更有利于物体分类,但更深层的特征图由于空间信息的缺乏不利于物体定位,这大大影响了目标检测的定位精度。【性能】 将FPN技术应用于Faster RCNN网络之后,网络的检测精度得到了巨大提高(COCO mAP@.5=59.1%, COCO mAP@[.5,.95]=36.2%),再次成为当前的SOTA检测算法。此后FPN成为了各大网络(分类,检测与分割)提高精度最重要的技术之一。原创 2023-09-06 15:14:45 · 120 阅读 · 0 评论 -
Fast RCNN
该网络首先输入图像,图像被传递到CNN中提取特征,并返回感兴趣的区域ROI,之后再ROI上运用ROI池化层以保证每个区域的尺寸相同,最后这些区域的特征被传递到全连接层的网络中进行分类,并用Softmax和线性回归层同时返回边界框。将一个输入图像和多个感兴趣区域(roi)输入到一个全卷积网络中。【不足】 Fast RCNN仍然选用选择性搜索算法来寻找感兴趣的区域,这一过程通常较慢,与RCNN不同的是,Fast RCNN处理一张图片大约需要2秒,但是在大型真实数据集上,这种速度仍然不够理想。原创 2023-09-06 15:03:38 · 134 阅读 · 0 评论 -
SPPNet
它的主要思路是对于一副图像分成若干尺度的图像块(比如一副图像分成1份,4份,8份等),然后对每一块提取的特征融合在一起,从而兼顾多个尺度的特征。当使用SPPNet网络用于目标检测时,整个图像只需计算一次即可生成相应特征图,不管候选框尺寸如何,经过SPP之后,都能生成固定尺寸的特征表示图,这避免了卷积特征图的重复计算。【不足】 和RCNN一样,SPP也需要训练CNN提取特征,然后训练SVM分类这些特征,这需要巨大的存储空间,并且多阶段训练的流程也很繁杂。原创 2023-09-06 13:53:04 · 68 阅读 · 0 评论