目录
MMAL-Net多分支多尺度
对比RA-CNN
1参数是用不同尺度图像训练的所以可以分类不同尺度图像。the parameters of CNN and FC in our three branches are shared. Therefore, through the common learning process of the three branches, the trained model has a good classification ability for different scales and parts of object.
2不需要计算多个局部区域图像的特征向量然后concat。the best classification performance is simply obtained by the result of object branch。
注意力目标定位模块(AOLM)
类似SCDA,但是使用的Resnet50。
这里把求和后的特征图F叫激活图A
1ResNet50预训练模型SCDA没法达到和VGG16预训练模型相似的精度。所以作者用训练集训练 ResNet-50,提升目标定位精度【指的应该就是第二个分支】。
2 相应这也换了层求交集。
注意力局部提议模块(APPM)
激活图上高激活值的区域通常是定位的关键部分
全卷积网络实现传统的滑动窗方法,从上一个分支的特征图输出中得到不同窗口的特征图
计算窗口激活均值代表窗口信息量进行排序(这里难道不就是个全局平局池化吗?)
降低区域冗余,NMS选择尺度不同的固定个数的窗口作为局部图像
非极大值抑制NMS:https://blog.csdn.net/shuzfan/article/details/52711706
排序后的、不同重要程度的局部区域
代码https://github.com/ZF4444/MMAL-Net