计算机视觉论文精读
文章平均质量分 93
研三小学渣
这个作者很懒,什么都没留下…
展开
-
论文精读之YOLOv1(You Only Look Once:Unified, Real-Time Object Detection)
模型在测试阶段,会将每个方框(不是网格)的score与该方框的类别概率(就是方框所在网格的类别概率)相乘,得到:方框的所属类别概率*IoU,这个分数既表示该类出现在方框中的概率,也表示预测方框与对象的匹配程度。其中,当方框内含有物体时,置信度损失采用上图中黑色框,当方框内不含有物体时,采用蓝色框的损失,这两者的分别是。因此,模型最后的输出是S × S × (B ∗ 5 + C)的张量,其中S × S是网格,B是锚框数量,5指的是xywh和score,C指的是类别数量。这里的类别与R-CNN系列不一样,原创 2023-08-09 00:24:59 · 28 阅读 · 0 评论 -
论文精读之Faster R-CNN(Towards Real-Time Object Detection with Region Proposal Networks)
在第三步中,论文使用检测网络来初始化 RPN 训练,但会固定共享的卷积层(此时两个网络的Deep ConvNet是相同的),只微调 RPN 独有的卷积层。在实验中,论文研究了拥有5个可共享卷积层的Zeiler和Fergus模型(ZF),以及拥有13个可共享卷积层的 Simonyan和Zisserman模型(VGG)。损失函数的设置与Fast R-CNN类似,需要注意的点是在之前的方法中,边界框回归是在从任意大小的区域池化的特征上进行的,并且回归权重是共享的。而在本文的方法中,采用了一种不同的方式。原创 2023-08-09 00:17:02 · 37 阅读 · 0 评论 -
论文精读之Fast R-CNN(Fast R-CNN)
论文提出一种新的算法结构Fast R-CNN,首先,将图片输入DeepCNN网络中得到特征图,根据映射关系可以找到原图上每个候选区域在特征图上的特征矩阵,然后将特征矩阵通过RoI Pooling层统一缩放到指定尺寸(论文中采用7x7),然后经过两个全连接层得到特征向量,在这之后并联两个全连接层层,左边的全连接层用于目标类别预测(分类器),右边全连接层用于边界框回归参数的预测(回归器)。首先,最后一个最大池化层被 RoI 池化层取代, 其次,将网络的最后一个全连接层替换为前面所述的(一个全连接层和。原创 2023-08-09 00:15:52 · 110 阅读 · 0 评论 -
论文精读之R-CNN(Region-based Convolutional Networks for Accurate Object Detection and Segmentation)
在测试时,文章的方法会为输入图像生成约 2000 个与类别无关的区域,使用 CNN 从每个区域中提取固定长度的特征向量,然后使用特定类别的线性 SVM 对每个区域进行分类。而滑动窗口通常用于受限对象类别,并且由于图像分辨率的影响,在卷积神经网络种感受野会很大,这使得在滑动窗口中进行精确定位非常困难。本文的第二个主要贡献是表明在数据稀缺的情况下,在大型辅助数据集 (ILSVRC)上进行有监督的预训练,然后在小型数据集(PASCAL)上进行特定领域的微调,是学习高容量CNN 的有效范例。原创 2023-08-02 21:24:32 · 100 阅读 · 0 评论