一.文章思想
通过融合网络层中的相机数据和投影稀疏雷达数据来增强当前的2D目标检测网络。所提出的CameraRadarFusionNet(CRF-Net)自动学习传感器数据融合在哪个级别对检测结果最有利。此外,我们还介绍了BlackIn,这是一种受dropout启发的培训策略,它将学习重点放在特定传感器类型也就是雷达上,通过同时停用相机图像数据的所有输入神经元,用于随机训练步骤。网络更加依赖雷达数据。目标是让网络了解稀疏雷达数据的信息价值。
借鉴了:
a)将雷达数据投影到地面,也就是垂直于图像的平面;
b)3d激光雷达目标检测的将非结构化激光点云转化为规则网格的思想;
c)网络可以在网络中学习优化网络的深度;
二.网络结构
1.主干部分为VGG与FPN:
FPN:
解释一下FPN:
利用FPN构建Faster R-CNN检测器步骤
首先,选择一张需要处理的图片,然后对该图片进行预处理操作;
然后,将处理过的图片送入预训练的特征网络中(如ResNet等),即构建所谓的bottom-up网络;
接着,如图5所示,构建对应的top-down网络(即对层4进行上采样操作,先用1x1的卷积对层2进行降维处理,然后将两者相加(对应元素相加),最后进行3x3的卷积操作,最后);
接着,在图中的4、5、6层上面分别进行RPN操作,即一个3x3的卷积后面分两路,分别连接一个1x1的卷积用来进行分类和回归操作;
接着,将上一步获得的候选ROI分别输入到4、5、6层上面分别进行ROI Pool操作(固定为7x7的特征);
最后,在上一步的基础上面连接两个1024层的全连接网络层,然后分两个支路,连接对应的分类层和回归层;
再解释一下什么是RPN操作:
RPN,也就是region proposal network,其目的是为了改善之前的基于滑动窗口以及region proposal也就是通过小框不断迭代变大的方法,将提取候选框的步骤融合到了网络里面。
2.再讲一下Retinanet,这篇文章最厉害的地方在于,作者洞察了为什么两阶段方法精度高,但速度低,一阶段方法速度高但精度低而两阶段方法反着的原因是因为类别不平衡啊,也就是一阶段将所有边界框无脑进行分类,用交叉熵损失无法抗衡这种 “类别不平衡”,而两阶段方法也只能减轻这种极不平衡,因此作者直接将交叉熵损失改为了focal loss: