RA-CNN循环注意力
1预训练的VGG初始化b1-b3,c1-c3【每个分支参数不同】
2最后一个卷积层(VGG-19的conv5_4)里选取最大响应区域作为APN的输出区域[tx,ty,tl],边长初始化为原始图像的一半。用来预训练d1-d2。
3交替训练。固定APN参数学习Lcls,固定CNN参数学习Lrank。
【定位一开始还是使用了卷积层输出的最大响应区域,后来Lrank对APN优化是弱监督】
4多尺度联合表示分类结果
{F1,F2…FN}独立归一化+拼接->全连接层进行类别判断(为了端到端不使用SVM)
定位:
attention mask根据(tx,ty,tl)裁剪原图像
矩形窗函数
用mask函数来做crop,不是直接根据坐标和边长信息生成一个0-1的mask。
大费周章的关键:保证APN可以在训练中被优化【反向传播优化(tx,ty,tl),mask连续函数一定可导,但是看别的论文并没有额外考虑是否能反向传播?】
The mask can select the most significant regions in forward-propagation, and is readily to be optimized in backward-propagation due to the properties of continuous functions.
Dtop denotes the derivatives backpropagated into the input layer at a specific scale, which represents the importance of each pixel with respect to the overall network activation
derivative map is almost zero on the border and negative inside?越黑代表绝对值越大
放大:双线性插值