Spot and Learn:A Maximum-Entropy Patch Sampler for Few-Shot Image Classification阅读笔记

摘要:
       
我们提出了一种基于最大熵强化学习的图像解关联采样方法,并在每个前向传递上提取不同序列的斑块,并观察到判别信息。一种类似学习“数据增强”的形式。因为我们在图像中搜索不同的补丁序列,并对提取的特征进行聚合进行分类,从而提高FSL性能。

介绍

       解决小样本学习问题的方法大致分为两类:元学习、度量学习。另一个分支有数据增强和注意力机制。

       人类盯着同一张图像两次的时候,注意的地方可能是不同的。我们的目光可能会沿着任何可能的轨迹,让我们能够理解图像。如果我们使用图像作为输入,我们只能得到一个可能的输入变量作为训练,受此启发,我们可以模拟一个更像人类的行为,从任何可能感兴趣的区域随机采样训练,这样将增加输入种类,提高泛化效果。

我们的模型旨在通过应用最大熵强化学习目标,从输入中产生可能的补丁序列,从而导致正确的分类。对于不感兴趣的区域使用负轨迹采样器。结合正轨迹采样器,加强正确分类。

相关工作

       元学习、度量学习、数据增强介绍。

       注意力机制分为两类,硬注意力机制:返回原始图像的裁剪补丁

                                          软注意力机制:返回一个与整个图像对应的注意图

预备知识:

强化学习算法。

1.目标和奖励

       学习者目标的形式化体现为奖励信号。每一个时间步中。奖励信号是一个实数值信号Rt。学习者的目标就是使得奖励最大化(非当前奖励,而是不同步奖励叠加)。

如何给智能体反馈即时奖励是我们向智能体传达我们希望达成的真正目标的手段,这个将决定智能体学习到什么样的策略。正确的即时奖励策略应该是能够使得智能体基于即时奖励并使得总体奖励最大化就自然实现了我们所期望的目标。如果即时奖励不妥当的话,智能体可能就无法达成我们希望它达成的真正目标。

       以围棋为例,我们希望学习者达成的真正目标是赢下一局棋,而不是像吃子,或者围住了某个局部区域。因此我们应该在最终取胜时给与决定性的奖励,而游戏过程中的行棋或甚至局部获利都不应该给很大奖励(相比最终赢棋的奖励而言)或者甚至不给奖励,以免误导智能体。如果我们给行棋过程中的局部获利过大的奖励的话,则可能导致智能体为了局部获利甚至付出让出最后的胜利的代价!

2.回报和回合

       每一步的即时奖励记为Rt,而总体奖励是通过即时奖励序列来计算。因此如何正确定义总体奖励,使得学习者基于即时奖励评估得到的总体奖励最大化导致我们所想让学习者达到的目标。

通常来说,将总体奖励最大化的问题转化为时间步T(Gt最大)的预期回报。考虑时间步t(采用行动𝐴𝑡)之后的奖励序列为 ,其中T表示最终时间步。则𝐺𝑡的最简单直观的定义就是去它们的和,如下所示:

如果一个任务没有最终状态,那么对于这种连续的任务,Gt应修改成以下状态。

但是在这种情况下,如果每一步的奖励都是大于0的,那么Gt会趋向于无穷,因此需要引入折扣系数。

使用强化学习对图像的补丁序列进行有利的采样。为图像X找到一个动作序列(a1,a2,…an)动作指标对应于图像x中的标准化2D坐标。

       以上行动旨在最大化RL折扣奖励 折扣因子  在分类任务中,如果第N个时间步之后分类正确,奖励函数通常Rn=1.否则为0. 此外,这些动作通常是从学习策略π中采样,即ai ~ πθ(a|s),其中策略由θ参数化,可以建模为神经网络。

求解策略π的标准方法包括策略梯度和Q-Learning方法。这两种方法都会使得采样策略崩溃为单一模式,即靠近高斯峰值或最高q值的位置,这两者在小样本学习中都不令人满意。

最大熵强化学习

       为了解决上述问题,使用最大熵强化学习。使得做出正确的分类的同时,最大化我们行为的多样性。

网络框架:

 假设有K个输入集合X。标签为我们提出了一个基于最大熵rl的框架,它学习从输入图像xj中采样补丁序列

 

如图所示,五个组件,特征提取器,动作上下文编码器,状态编码器,最大熵采样器,分类。

我们的框架主要由五个部分组成:特征提取器、动作上下文编码器、状态编码器、最大熵采样器和最终分类器。特征提取器fe接受一个输入补丁pi来导出特征ei,状态编码器fs使用它来产生当前状态si。接下来,最大熵采样器(使用q函数fQ和实际策略πθ)使用输入图像x和si对动作ai进行采样,产生下一个补丁pi+1。动作上下文编码器fa然后使用ai和图像g (πθ提取)的特征对当前动作的上下文ci进行编码。最后,状态编码器fs采用新提取的特征ei+1(由fe从pi+1提取)和操作上下文ci来产生下一个状态si+1(图中没有描述)。最终状态sN被输入到分类器中,以确定其输出向量l和预测标签y。我们注意到N被选为超参数。

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值