【论文阅读笔记】faster rcnn 代码阅读细节

本文详细解析了Faster R-CNN中Bounding Box Regression的原理,包括平移和缩放变换,以及线性回归在微调窗口位置中的应用。通过学习dx, dy, dw, dh来优化预测框与Ground Truth的匹配。代码部分分析了box_coder.py中的decode过程,展示如何将修正应用于Anchors以提高检测精度。" 127133990,15390648,Java Springboot 医院排班系统开发实战,"['Springboot框架', 'Mybatis框架', 'Vue.js框架', 'Java开发', 'Maven构建']
摘要由CSDN通过智能技术生成


参考: https://zhuanlan.zhihu.com/p/31426458

https://www.cnblogs.com/dudumiaomiao/p/6560841.html

bounding box regression原理

如图所示绿色框为飞机的Ground Truth(GT),红色为提取的positive anchors,即便红色的框被分类器识别为飞机,但是由于红色的框定位不准,这张图相当于没有正确的检测出飞机。所以我们希望采用一种方法对红色的框进行微调,使得positive anchors和GT更加接近。
在这里插入图片描述

理论

对于窗口一般使用四维向量 ( x , y , w , h ) (x,y,w,h) (x,y,w,h)表示,分别表示窗口的中心点坐标和宽高。
对下图,红色的框A代表原始的positive Anchors,绿色的框G代表目标的GT,我们的目标是寻找一种关系,使得输入原始的anchor A经过映射得到一个跟真实窗口G更接近的回归窗口G’,即:

  • 给定anchor A = ( A x , A y , A w , A h ) A=(A_x,A_y,A_w,A_h) A=(Ax,Ay,Aw,Ah)和GT G = [ G x , G y , G w , G h ] G=[G_x,G_y,G_w,G_h] G=[Gx,Gy,Gw,Gh]
  • 寻找一种变换F,使得 F ( A x , A y , A w , A h ) = ( G x ‘ , G y ‘ , G w ‘ , G h ‘ ) F(A_x,A_y,A_w,A_h)=(G^‘_x,G^‘_y,G^‘_w,G^‘_h) F(Ax,Ay,Aw,Ah)=(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值