目标跟踪相关知识总结

代码的路

已于 2022-05-07 10:51:28 修改

阅读量1.2k

点赞数 2

分类专栏：目标跟踪文章标签：计算机视觉人工智能深度学习神经网络目标跟踪

于 2019-03-12 22:03:59 首次发布

本文链接：https://blog.csdn.net/zbzcDZF/article/details/88430236

版权

目标跟踪专栏收录该内容

18 篇文章 0 订阅

订阅专栏

原文链接

feather map：

在cnn的每个卷积层，数据都是以三维形式存在的。可以看成许多个二维图片叠在一起（，其中每一个称为一个feature map。

1.在输入层，如果是灰度图片，那就只有一个feature map；如果是彩色图片，一般就是3个feature map（红绿蓝）。

2.在其它层，层与层之间会有若干个卷积核（kernel），上一层每个feature map跟每个卷积核做卷积，都会产生下一层的一个feature map，有N个卷积核，下层就会产生N个feather map。

卷积核（filter）：

每个卷积核具有长宽深三个维度；卷积核的深度与当前图像的深度（feather map的张数）相同。卷积核的个数与下一层需要多少个feather map相同。在CNN的一个卷积层中：卷积核的长、宽都是人为指定的，长X宽也被称为卷积核的尺寸，常用的尺寸为3X3，5X5等；例如，在原始图像层（输入层），如果图像是灰度图像，其feather map数量为1，则卷积核的深度也就是1；如果图像是grb图像，其feather map数量为3，则卷积核的深度也就是3。

训练数据：

batchsize：批大小。在深度学习中，一般采用SGD训练，即每次训练在训练集中取batchsize个样本训练；
iteration：1个iteration等于使用batchsize个样本训练一次；
epoch：1个epoch等于使用训练集中的全部样本训练一次，通俗的讲epoch的值就是整个数据集被轮几次。

例如300个样本训练一次，epoch=1，batchsize = 10 ，iteration=30。

BN（Batch Normalization）层：

BN层即batch-norm层，一般是深度学习中用于加速训练速度和一种方法，一般放置在卷积层（conv层）或者全连接层之后，将数据归一化并加速了训练拟合速度。

常用位置：conv→bn→relu

如果网络使用sigmod激活函数，误差在向前传递的时候，经过sigmod单元，需要乘sigmod的梯度，而sigmod的梯度最大是0.25，因此越向前传递，误差就越小了，这就是梯度消散，但是梯度爆炸是什么？注意误差在经过全连接或者卷积层时，也要乘以权重w，如果w都比较大，大过sigmod造成的减小，这样越往前误差就越来越大，产生梯度爆炸。

BN层的计算图如下面所示，x是输入数据，到xhat均值方差归一化，后面xhat到y其实就是普通的一个线性变换，类似全连接但是没有交叉。如果没有BN层，x直接输入后面的网络，训练过程中x分布的变换必然导致后面的网络去调整学习以来适应x的均值和方差，映入了BN层，xhat是一个归一化的数据，代价就是网络中多了一个线性层y，但是前者带来的性能更加大，因此加速了。

AUC（Area Under Curve）：

一个正例，一个负例，预测为正的概率值比预测为负的概率值还要大的可能性。所以根据定义：我们最直观的有两种计算AUC的方法：

1：绘制ROC曲线，ROC曲线下面的面积就是AUC的值

2：假设总共有（m+n）个样本，其中正样本m个，负样本n个，总共有m*n个样本对，计数，正样本预测为正样本的概率值大于负样本预测为正样本的概率值记为1，累加计数，然后除以（m*n）就是AUC的值。

AUC作为数值可以直观的评价分类器的好坏，值越大越好。

均值平均精度MAP(Mean Average Precision)：

我们使用loU和阈值判断是否为目标。计算模型得到的每个检测框的loU值，用计算出的loU值与设定的loU阈值比较，就可以计算出每个图像中每个类的正确检测次数(A)。对于每个图像，我们都有ground truth的数据,因此也知道了该图像中给定类别的实际目标(B)的数量。我们也计算了正确预测的数量(A)（True possitive）。因此我们可以使用这个公式来计算该类模型的精度(A/B)

即给定一张图像的类别C的Precision=图像正确预测的数量除以在图像张这一类的总的目标数量。假如现在有一个给定的类，验证集中有100个图像，并且我们知道每个图像都有其中的所有类(基于ground truth)。所以我们可以得到100个精度值，计算这100个精度值的平均值，得到的就是该类的平均精度。

即一个C类的平均精度=在验证集上所有的图像对于类C的精度值的和/有类C这个目标的所有图像的数量。现在加入我们整个集合中有20个类，对于每个类别，我们都先计算loU，接下来计算精度,然后计算平均精度。所有我们现在有20个不同的平均精度值。使用这些平均精度值，我们可以轻松的判断任何给定类别的模型的性能。

但是问题是使用20个不同的平均精度使我们难以度量整个模型，所以我们可以选用一个单一的数字来表示一个模型的表现(一个度量来统一它们),我们可以取所有类的平均精度值的平均值，即MAP(均值平均精度)。