【Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition】

文章提出了一种名为RA-CNN的新架构,针对细粒度图像识别,特别是皮肤病分类。它结合了注意力提议网络(APN)来定位关键区域并放大细节,通过双线性插值增强特征,提高识别准确性。这种方法解决了区域定位和细粒度特征学习之间的协同问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基于弱监督细粒度方法的皮肤病分类

文章题目

Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition

文章来源

CVPR2019

作者动机

区域定位和细粒度特征学习是细粒度问题中的两大挑战。现有(19年之前)方法主要专注于独立解决这两个问题,然而忽略了两者的相关性,所以提出了一种新的架构——RA-CNN

作者思路

把一张输入的图片进行通过注意力提议网络(APN)进行剪裁,再经过双线性插值放大。其效果相当于丢掉图片中其他信息,放大“我”想看到的东西。效果如下:
在这里插入图片描述

网络架构

在这里插入图片描述
粗略解释:
输入一张原始图片,对于原始图片有两个任务,一是像常规的图像分类一样经过卷积——全连接——softmax进行分类,得到一系列类别的概率;二是在经过卷积之后得到的一系列特征图,经过注意力提议网络(APN)得到注意力的结果。如上图,我们的注意力在鸟头上,所以我们裁剪掉其他的部分,只留下鸟头,在将鸟头经过双线性池化放大。与文章题目呼应——看的更近看的更好

详细解释:
对于一张图片A,经过特征提取(卷积操作)——全连接——softmax,得到不同类别的概率P,如下图:
在这里插入图片描述
损失L(X)1为:
在这里插入图片描述
与此同时在特征提取之后得到一系列特征图,经过注意力提议模块
(APN),得到一个正方形的注意力块,记录为:
在这里插入图片描述
tx表示注意力的中心x坐标,ty表示注意力中心y的坐标,tl表示注意力块的边长的一半。这就是我们在原来的图片中需要留下的部分。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值