Weakly Supervised Data Augmentation Net-work (WS-DAN)

Weakly Supervised Data Augmentation Net-work (WS-DAN)

原文:Weakly Supervised Data Augmentation Net-work (WS-DAN) (Hu et al., “See Better Before
Looking Closer: Weakly Supervised Data Augmentation Network for Fine-Grained Visual
Classification”, arXiv:1901.09891)

Weakly Suprevised Learning弱监督学习:相对监督而言,lable不是很完善的情况。三种弱监督类型:不完全监督:只有一部分训练数据具备标签;不确切监督:训练数据只具备粗粒度标签;以及不准确监督:给出的标签并不总是真值。

Fine-Grained Visual Classification (FGVC)细粒度视觉分类:目的是在一个基本大类中进行细分类。例如鸟的种类,飞机型号。FGVC的难点在于:1、类中差异大。属于同一类的对象,呈现出不同的姿势,视觉角度也会造成很大差异。2、低类间差异:属于不同类的物体可能非常相似。3、训练数据有限。需要专业的知识和大量的时间标注。
所以仅依靠CNN很难获得准确的分类结果。

attention-guided data augmentation注意力引导数据增强:用Weakly Supervised Attention Learning来生成attention map。然后在attention map的基础上进行数据增强(attention cropping and attention dropping),提高数据增强的效率。attention cropping是裁剪并放大其中一个attention region,以增强局部特征的呈现。attention dropping 是随机的从图像中删除一个attention region,以激励模型从多个判别部分中提取特征。最后,在测试过程中,利用attention map对整个目标进行精确定位和放大,进一步提高精度。

WS-DAN 方法介绍

training process 训练过程:


(A)Weakly Supervised Attention Learning :弱监督注意力学习,通过弱监督注意力学习对每一张训练图片生成一个注意力图(attention maps)来展现对象的显著特征。(b)注意力引导数据增强,随机选择一张注意力图,通过注意力剪裁和注意力删除的方式去增强这张图片,最后原图和增强对数据都会被作为输入数据进行训练。 BAP:Bilinear Attention Pooling双线性注意力池化

下面说明Weakly Supervised Attention Learning的各个部分:

Spatial Representation:空间关系。在这个方法中采用弱监督学习只根据类别标注来预测物体的位置分布。从一张图片I中通过CNN提取特征F ∈ R^(H×W×N)高H,宽W,数量为N。物体的分布通过Attention Maps来体现,A ∈ R^(H×W×M)。attention maps的获取通过对特征图F做卷积。

f(·)是卷积函数。Ak表示物体的一部分或视觉模式,如鸟的头部、汽车的轮子。

1、Bilinear Attention Pooling双线性注意力池化(BAP)

通过BAP来提取特征。
在这里插入图片描述
首先通过主干网络(Inception v3)来生成特征图(feature maps),和注意力图(attention maps)。attention maps代表一个特定物体的某个部分。然后把feature map和attention map按元素对应相乘生成部分特征图(part feature maps)。然后通过卷积运算或者池化提取部分特征(part feature)。最终的特征矩阵(feature maps)包含所有的part feature。
在这里插入图片描述
采用元素对应相乘。
然后,通过额外的特征提取函数g(·),如全局平均池(GAP)、全局最大池(GMP)或卷积,来提取具有识别力的局部特征。
在这里插入图片描述
feature matrix P ∈ R^M×N
在这里插入图片描述

2、Attention Regularization注意力正则化

因为我们想要attention map Ak只呈现物体的第k个部位。所以惩罚同一物体不同特征间的差异。也就是说特征f_k要靠近全局特征中心。
在这里插入图片描述
L_A是损失函数。c_k是第k个部分的特征中心。beta是更新速率。

3、Attention-guided Data Augmentation注意力引导数据增强

随机数据增强是一种低效的方法,特别是当目标尺寸很小时,它容易引入高百分比的背景噪声。有了注意力图,数据可以更有效地增加。对于每一幅训练图像,我们随机选择其注意图Ak来指导数据增强过程,并对它做归一化处理。
在这里插入图片描述

Attention Cropping

我们从Ak*中获取Crop Mask(Ck)。方法是,选取一个阈值theta。大于阈值,亮度设为1,小于设为0。
在这里插入图片描述
然后再在原图中找到一个边界框(bounding box)Bk,它可以完全的框住大于阈值的部分。然后把这个部分放大显示出来。这样就实现了论文提出的更近更好的看到特征。
在这里插入图片描述

Attention Dropping

和Attention Cropping相反,大于阈值显示0,小于阈值显示1,然后把大于阈值的部分剪掉。这将鼓励网络提取其他有识别力的部分,这意味着物体也可以被更好地看到:分类的稳健性和定位的准确性将得到提高。
在这里插入图片描述

dropping和cropping的贡献:

在这里插入图片描述

Testing process

在这里插入图片描述

首先,由(A)从原始图像中输出目标的类别预测和注意图。其次,根据(C)对目标进行定位,然后对目标进行放大以细化类别预测。最后,将上述两种可能性结合起来作为最终预测。

Object Localization and Refinement物体的定位和细化
这个部分会将特征放大。
算法步骤:
输入一张图像。
1、预测粗分类的概率p1,同时的到注意力图attention maps
2、计算object map Am
在这里插入图片描述
3、从Am中获取边界框B
4、放大区域B得到Io
5、预测细分类结果p2 = W(Io)
6、计算最终概率 p = (p1 + p2)/2

论文中采用的具体参数:
主干网络:Inception v3
feature maps:Mix6e layer
获取attention maps : 1 *1的卷积核
池化函数g(·):GAP
cropping 和 dropping的阈值:0.5

论文结论:

Attention maps的个数在32个达到稳定,准确率稳定在89.4%
WS-DAN 方法相比其他网络在CUB-200-2011 、 Stanford Dogs datasets、FGVC-Aircraft testing dataset和Stanford Cars testing dataset测试集上都取得了更好的准确率(采用mIoU评价)。

### 回答1: 弱监督学习(weakly supervised learning)是一种机器学习方法,其训练数据只提供了部分标签或不完整的标签,而不是完全标注的数据。这种方法通常用于解决大规模数据集的标注问题,因为完全标注数据的收集和标注成本很高。弱监督学习可以通过使用不完整的标签来训练模型,从而实现对未标注数据的分类或预测。 ### 回答2: Weakly supervised learning(弱监督学习)是指在训练模型时,使用相对较少的标注数据来指导训练,因为标注数据的收集和标注成本非常高。相较于传统监督学习只使用有标注的数据进行训练,弱监督学习使用的训练数据中包含大量的无标注数据,而标注数据的质量并不足够高,因此弱监督学习面临的挑战就是如何借助未标注数据自动学习有用的信息。 弱监督学习的应用十分广泛,比如图像分类、文本分类、目标检测等。在图像分类中,对于一张图像可能存在多个物体,但是只有其中的一个有标注信息。弱监督学习通过利用未标注数据中的信息,提取出图像中所有物体的特征,并组合在一起来完成图像分类。在文本分类中,弱监督学习可以通过利用一些无需标注的信息(比如文本长度、单词频率等)来训练模型,从而完成文本分类。 因此,弱监督学习的优点在于可以有效地利用未标注数据来提高模型的性能和泛化能力,降低了标注数据的成本,减少了人工标注数据的难度。但是,相较于传统监督学习,弱监督学习的性能仍然有很大的提升空间。在应用实践中需要不断地探索更加有效的方法来挖掘未标注数据中的信息,提高模型的性能。 ### 回答3: 弱监督学习(weakly supervised learning)是机器学习中的一种方法,它利用相对较少的标注数据来训练模型。相比于传统的监督学习,需要大量的准确标注数据,弱监督学习可以大大减少标注数据的数量和标注的工作量。 弱监督学习的训练数据不一定是完全标注的数据,而是包含一些不准确或不完整的标注信息。这些标注信息可能是部分标注的数据、有噪声的数据或者只有粗糙的标注信息的数据。弱监督学习需要通过学习隐含在这些数据中的模式和规律,来预测新样本的标签。 弱监督学习的优点在于,它可以利用更多的数据来训练模型,尤其是一些难以标注的或者昂贵的数据。例如,在医学领域中,弱监督学习可以利用医生的诊断报告来训练模型,而不需要对每个病人进行详细的检查和诊断。 但是,弱监督学习也有一些缺点。由于训练数据的标注信息不完全,模型容易受到噪声的影响,导致预测结果不准确。解决这个问题的方法是利用更多的弱监督数据来训练模型,或者结合其他监督方法来提高模型的准确性。 总之,弱监督学习是一个有前途的方法,可以为许多应用程序提供更好的解决方案。随着技术的不断发展和数据的不断增加,弱监督学习将会成为我们在大规模数据分析和应用中的重要工具之一。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值