计算机视觉实习面试整理

最新推荐文章于 2024-05-22 22:37:21 发布

xpc_buaa

最新推荐文章于 2024-05-22 22:37:21 发布

阅读量1.2k

点赞数 1

分类专栏： TensorFlow 文章标签： cv

本文链接：https://blog.csdn.net/xiadimichen14908/article/details/90758182

版权

5 篇文章 0 订阅

订阅专栏

头条AI Lab

anchor如何计算？
采用标准的k-means（即用欧式距离来衡量差异），在box的尺寸比较大的时候其误差也更大，而我们希望的是误差和box的尺寸没有太大关系。因为框的大小不一样，这样大的定位框的误差可能更大，小的定位框误差会小，这样不均衡，很难判断聚类效果的好
$d (b o x, c e n t r o i d) = 1 - I O U (b o x, c e n t r o i d)$
在计算anchor boxes时我们将所有boxes中心点的x，y坐标都置为0
如何计算IoU

$W = m a x (m i n (X 1, A 1) - m a x (X 0, A 0), 0)$
Loss function
置信度损失+分类损失（只包含物体）+（仅计算包含物体框的x,y,w,h的损失mse）

参考https://github.com/matterport/Mask_RCNN/blob/master/mrcnn/model.py

backbone :
resnet101提取特征C2，C3，C4，C5
利用C2-C5构建FPN金字塔特征P2，P3，P4，P5（上采样后，相加，在卷积），P6（maxpooling P5)
rpn网络(只预测是否是物体）
（rpn网络类似yolo）
rpn的feature map是[P2, P3, P4, P5, P6]
输入时【图片，标签】
输出是【feature map对应点的每一类的可能性，物体的可能性，bbox的位置】
对输出的概率排序，保存前景概率大的一部分，然后选取想对应的anchor，利用rpn的输出回归值对anchor进行第一次修正。修正完利用极大抑制方法，删除其中的一部分anchor。获的最后的anchor。
rpn的loss
$L(\{p_i\},\{t_i\}) = \frac{1}{N_{cls}}\sum_iL_{cls}(p_i,p_i^*)+\lambda\frac{1}{N_{reg}}\sum_ip_i^*L_{reg}(t_i,t_i^*)$
$L_{cls}$ 是是否是物体的log loss， $L_{reg}=R(t_i,t_i^*)$ 是smooth L1 loss $t_i$ 是4个参数的vector
$t_x = (x-x_a)/w_a,t_y=(y-y_a)/h_a \\t_w = log(w/w_a),t_h = log(h/h_a)\\ t_x^* = (x^*-x_a)/w_a,t_y^*=(y^*-y_a)/h_a\\ t_w* = log(w^*/w_a),t_h^*=log(h^*/h_a)$