paper readed
文章平均质量分 87
艾1
这个作者很懒,什么都没留下…
展开
-
Learning to Segment Object Candidates(deepMask)
请注意,输出平面中的每个像素分类器必须能够利用包含在整个特征图中的信息,从而具有对象的完整视图。这是至关重要的,因为与语义分割不同,网络必须为单个对象输出掩码,即使存在多个对象。可局部或完全连接的像素分类器:这两种选择都有缺点,在前者中,每个分类器只有对象的部分视图,而在后者中,分类器有大量冗余参数。其中,如果物体中心点没有包含分割对象,也就是YK=-1,则前者为0,只计算目标检测分数;(2)输入补丁mk对应的二进制掩码(mij k∈{±1},其中(i, j)对应输入补丁上的像素位置),原创 2023-06-21 14:25:28 · 141 阅读 · 0 评论 -
YOLOV1目标检测算法复现一
4.3 bbox预测 在YOLOv1中,bbox分支就是学习中心点的偏移量 ��,�� 和归一化的边界框的宽高 �,ℎ ,但是不论是哪个量,YOLOv1均使用线性函数来输出,未加任何约束限制,很明显会有以下两点问题: a) 由于偏移量��,��是介于01范围内的数,因此,其本身就是有上下界的,而线性输出并没有上下界,这就容易导致在学习的初期,网络可能预测的值非常大,导致bbox分支学习不稳定。在训练过程中,在正样本候选区域处(�����,�����) 处: 第1步:YOLOv1网络输出B个预测框;转载 2023-05-06 15:06:59 · 329 阅读 · 0 评论 -
Rich feature hierarchies for accurate object detection and semantic segmentation
(1) Pre-training,由于目标检测的数据量相对较少,不足以训练一个好的CNN网络,因此首先使用一个大的数据集(ILSVRC2012数据集)来训练AlexNet,得到一个预训练的分类网络模型。3.SVM要寻找的最优解:每一个可能把数据集正确分开的方向都有一个最优决策面,而不同方向的最优决策面的分类间隔通常是不同的,那个具有“最大间隔”的决策面。2.在计算2k个建议框的CNN特征时,在硬盘上保留了2K个建议框的Pool5特征,虽然这样做只需要一次CNN前向网络运算,但是耗费了大量磁盘空间。原创 2023-03-23 19:30:53 · 88 阅读 · 0 评论 -
Faster R-CNN: Towards Real-Time ObjectDetection with Region Proposal Networks
1.Proposal Layer有3个输入:positive vs negative anchors分类器结果rpn_cls_prob_reshape,对应的bbox reg的 变换量rpn_bbox_pred,以及im_info;在作者的论文中,默认在每一个点上抽取了9种Anchors,具体Scale为{8, 16, 32}, Ratio为{0.5, 1, 2},将这9种Anchors的大小反算到原图上,即得到不同的原始Proposal,实际上通过anchors就引入了检测中常用到的多尺度方法。原创 2023-04-05 15:12:22 · 265 阅读 · 0 评论 -
论文学习笔记(YOLO-DFAN: Effective High-Altitude Safety BeltDetection Network)
在安全带检测中突出的问题:人体只占据了输入图像的一部分,高空安全带只覆盖了人体的一部分。三.介绍注意力机制(DFAN)(采用轻量级特征提取网络,难以提取高空安全带的特征,因此,引入了注意机制来帮助检测网络提取它们的特征。早期,注意力模型主要用于机器翻译,现在成为cnn的重要组成部分,可以帮助网络模型预测潜在的感兴趣特征。特点:在图像中分布较分散,特征不聚焦,容易与背景混淆,因此,检测网络很难提取出它们的有效特征。解决了网络退化问题,同时增加了网络深度,缓解了梯度分散,使数据传输更加顺畅。原创 2023-02-22 11:06:05 · 166 阅读 · 0 评论 -
论文学习笔记(Densely Connected Convolutional Networks)
何恺明在提出ResNet时做出的假设: 若某一较深的网络多出另一较浅网络的若干层,且这些层有能力学习到恒等映射, 那么这一较深网络训练得到的模型性能一定不会弱于该浅层网络。在Denseblock中,假设每一个卷积操作的输出为K个feature map, 那么第i层网络的输入便为(i-1)×K +(上一个Dense Block的输出channel), 这个K在论文中的名字叫做Growth rate, 默认是等于32的。假设输入为一个图片X 0, 经过一个L层的神经网络, 第 l 层的特征输出记作 X l.原创 2023-03-06 15:26:02 · 102 阅读 · 0 评论