Few-Shot Learning with Localization in Realistic Settings阅读笔记

最新推荐文章于 2024-08-12 17:36:56 发布

寂静山谷的风

最新推荐文章于 2024-08-12 17:36:56 发布

阅读量514

点赞数 7

文章标签：笔记

本文链接：https://blog.csdn.net/weixin_44076628/article/details/140643033

版权

摘要：

现实世界的识别问题表现出重尾类分布，场景混乱，并且混合了粗粒度和细粒度的类区别。针对这个问题，引入了三个改进方案。

A：为了更好的对元学习进行训练，使用交叉验证

B：在分类前使用有限的包围框注释来定位对象的新架构

C: 基于双线性池的特征空间的简单无参数扩展

介绍：

之前的小样本学习（匹配网络，关系网络，元学习等）工作很成功。但是将其应用于现实世界，效果并不是太好。

首先，先前的小样本学习数据集较为平衡，而现实世界的问题可能是高度不平衡的。

其次，真实世界的应用程序通常涉及成千上万个具有细微差别的类

使用原型网络直接解决这个问题，效果不好。因此，本文对原型网络进行了修改，在不增加模型复杂性的情况下显著提高了准确性。

方法描述：

为了解决类别严重失衡问题，使用了基于交叉验证的方法。
当物体很小或场景混乱的情况下，很难从图像级别的标签识别物体。为了解决这个问题，探索了一种新的学习器架构，对感兴趣的对象进行分类之前对其进行本地化，这些学习器对标记图像的一小部分使用边界框注释，当物体占图像的比例低于40%时
即使在定位对象之后，学习者可能还需要寻找概念之间的细微区别。现有的少镜头方法仅依赖于学习过程来构建信息特征表示。我们表明，直接的、无参数的调整可以显著提高性能。特别是，我们发现利用双线性池可以显著提高学习器的表征能力。

综上方法，这些改进在野外场景下的识别效率高了很多。

方法：

我们在原型网络[37](第4.1节)的基础上，引入了对原型网络[37]的三个轻量级和无参数改进。批处理折叠(第4.2节)提高了训练中的梯度，并帮助学习者泛化到大的类。少镜头定位(章节4.3)教学习者在分类对象之前对其进行定位。协方差池化(章节4.4)极大地提高了原型向量的表达能力，而不影响底层网络架构。

批处理折叠：
训练期间，批处理中的每张图像要么是query img，要么是support img，而不是两者都是。当根据参考图像学习到一个好的类别中心时，受到其它设计器的约束，查询图像会趋近于正确的类别中心而远离其他的类别。两种图像（参考图像和查询图像）的梯度对于学习而言都是必须的，但每个图像只能接收到一种梯度，所以Prototypical Network权重更新是充满噪声的。而且这种划分方式还限制了参考图像的数量，因为对于常见类别或稀有类别，Prototypical Network支持集的每个类别样本的数量都是相同的，如果想增加支持集样本的数量，要么增加批尺寸（这将收到内存的限制），要么减少查询集的数量（这将给查询图像的梯度带来更多噪声）。

解决方法：本文提出了一种留一交叉验证法（leave-one-out cross-validation）取代了支持集与查询集之间的硬性划分。将整个数据集都看做是支持集，当一副图像要作为查询图片时，只需要在其对应的原型（Prototype）减去这张图像的贡献就可以了。

实现批折叠：假设共有n个类别，每个类别包含p个样本，v i,j 表示第j 类中的第i个样本对应的特征向量，令 cj = ∑ i vi,j / p 为第j类的原型（Prototype）(先累加后平均)，则在预测第j类中的第i 个样本的类别时

可以看到对应的原型cj减去了样本特征向量v ~i , j~ 对原型的贡献，并通过p/ p − 1 调整数量平衡（原来计算时使用了p个样本，现在减去一个应该为p-1个样本）。采用这样的方式使得查询图像和参考图像都能接收两种图像计算的到的梯度，并且参考集和查询集的样本数量可以增加到批尺寸的上限。

定位：

当物体较小，场景较为混乱的时候，类别标签的信息量就太少了，因为不清楚标签指的是图像的哪一个部分。这一改进其实是考虑到了目标的位置信息，将目标物体作为前景，与背景分离出来，针对感兴趣区域进行类别预测，就能提高准确率。我们考虑两种可能的方法。在无监督定位中，学习者在表示集上建立了一个类别不可知的“前景”模型。少镜头定位使用评价集中的参考图像包围框进行定位。

步骤：
最终将10*10特征图中的每个位置分类为前景和背景。

方法一：该预测计算为每个像素嵌入的负L2接近前景向量和背景向量的软最大值。在无监督定位中，这些向量是在表示集上优化的学习参数。

方法二：图像1，带有边界框，很容易将图像分为前景和背景，然后产生前景向量和背景向量2。对于没有边界框的图像3，逐像素计算与2的Ｌ2距离，并利用softmax函数转化成前景背景的掩码图4。将特征图与掩码图相乘，就得到了对应的前景预测图和背景预测图5最后分别进行平均池化得到前景背景向量，并级联在一起得到最终的级联特征向量6 ，用于下面的分类任务。

注：在使用批处理折叠的方法中，每个查询图像需要将自己的贡献从背景向量和前景向量中移除。

协方差池化：

采用双线性池化、fisher vectors等可以用来扩充特征空间，增加表达能力的。但是，传统的模型使用这些方法会增大参数量，在小样本任务中产生过拟合的现象。

作者改进双线性池化。该方法采用两个特征映射(例如，来自双流卷积网络)，并通过在平均池化之前执行像素级外积来计算它们之间的交叉协方差。

本文提出协方差汇合，也就是双线性汇合（bilinear pooling），本质上是一种拓展特征空间，增强表征能力的方式。这一方法需要两个来自不同分支网络的特征图（本文中利用前景和背景两个分支的特征图），计算两个特征图的外积（矩阵相乘）作为两者之间的协方差，并利用有符号的平方根规范化进行处理，但不做单位化处理。最后再利用全局平均池化得到前景和背景向量。

寂静山谷的风

关注

7
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Few-Shot Learning with Localization in Realistic Settings阅读笔记

而且这种划分方式还限制了参考图像的数量，因为对于常见类别或稀有类别，Prototypical Network支持集的每个类别样本的数量都是相同的，如果想增加支持集样本的数量，要么增加批尺寸（这将收到内存的限制），要么减少查询集的数量（这将给查询图像的梯度带来更多噪声）。实现批折叠：假设共有n个类别，每个类别包含p个样本，v i,j 表示第j 类中的第i个样本对应的特征向量，令 cj = ∑ i vi,j / p 为第j类的原型（Prototype）(先累加后平均)，则在预测第j类中的第i 个样本的类别时。
复制链接

扫一扫