Transfer Increment for Generalized Zero-Shot Learning阅读笔记

#摘要

      在本文中,我们提出了一种基于转移增量策略的GZSL和更开放场景的简单而有效的机制。一方面,构建了一个基于双知识源的生成模型来解决缺失数据问题。具体来说,同时考虑从标签嵌入空间和全局关系知识中提取的局部关系知识,即特征嵌入空间中的估计数据中心来合成虚拟样本。另一方面,我们进一步探索了GZSL设置下生成模型的训练问题。设计了两种增量训练模式,直接从合成样本中学习看不见的类,而不是一起看到和合成看不见的样本的训练分类器。它不仅提出了一种有效的看不见的类学习,而且在实际应用中需要更少的计算和存储资源。

      在本文中,提出了一种转移增量策略来改进GZSL虚拟样本的生成和训练过程。我们的方法包括迁移增量两个阶段。在转移阶段,使用两个知识源将学习从可见类推广到不可见类。首先,考虑 LRK,表示从可见类到标签嵌入中未见类的稀疏映射。LRK的定义将在相关工作中进一步阐明。其次,据观察,不仅每个类的数据形成了一个紧密的集群,而且整个数据集也是如此。这可以从图 1 所示的可视化看出,其中基准数据集被投影到 3-D 空间上。该特征用于估计特征嵌入空间中未见类的中心作为主管,以减轻合成虚拟样本与真实未见样本之间的偏差。在这里,估计的知识称为全局关系知识 (GRK)。本地和 GRK 都用于构建生成模型。所提出的传输技术是线性的且易于实现。在增量阶段,我们进一步探索了GZSL设置中生成模型的训练问题。增量学习首先被用作一种有效的策略,直接从看不见的类的虚拟样本中学习,并保持识别可见类的能力。将两种简洁的线性增量算法嵌入到经典概率模型中,实现类别增量。

       同时考虑了在增量学习阶段可以使用或不使用可见类数据的情况,这意味着我们同时设计了有可见类模式(IWM)数据的增量学习和没有可见类模式的增量学习

贡献总结如下。1)利用定义的GRK和经典的LRK提出了一种基于双知识源的生成模型,实现了简单而有效的知识转移。2)增量训练模式首先旨在从合成的样本中学习看不见的类,并为GZSL任务获得更有效的训练过程。

在第 II 节中,我们简要回顾了相关工作。然后,提出了转移增量学习策略,然后是五个基准数据集的案例研究。最后,得出结论。

the animals with attributes (AWA)数据集

属性描述可以通过 one-hot 编码技术处理为属性向量

嵌入技术示意图

图2

 嵌入技术示意图如图所示。在特征嵌入空间中,特征通常由网络提取,用于深度表示。在标签嵌入空间中,数据集的每个类由其属性或词向量描述,依此类推 。在这里,以属性 (AWA) 数据集 [4] 的动物为例,以更好地理解属性描述。数据集中的“蓝色鲸鱼”类可以用许多属性来描述,包括“肢体(假)、“蓝色(真)、“海底(真)”和“巨大(真)。”类似地,“黑猩”可以用相同的属性来描述,包括“肢体(真)、“蓝色(假)、“海底(假)”和“巨大(假)。”属性描述可以通过 one-hot 编码技术处理为属性向量,并用于标签嵌入空间作为不同类别的细粒度类级表示。

mapping(映射)

细粒度图像分类是在区分出基本类别的基础上,进行更精细的子类划分,如区分鸟的种类、车的款式、狗的品种等

迁移学习的核心思想是,通过利用源域模型已经学习到的知识,可以加速和提高目标域任务的学习效果。例如,如果我们已经有了一个在大规模图像分类任务上训练好的卷积神经网络模型,我们可以将其作为特征提取器,将其前面的卷积层固定不变,只训练后面的全连接层,来解决新的图像分类任务。

迁移学习具有以下优点:

  1. 加速模型训练:迁移学习可以利用已经训练好的模型的知识,避免从头开始训练模型,从而加速模型的训练。

  2. 提高模型泛化能力:源域模型已经学习到了一些通用的特征和规律,这些特征和规律可以帮助模型更好地适应目标域任务,提高模型的泛化能力。

  3. 解决数据不足的问题:在某些情况下,目标域数据的数量非常有限,这会导致模型难以训练。迁移学习可以利用源域模型已经学习到的知识,来提高模型在目标域数据上的表现。

  4. 减少计算资源的需求:在迁移学习中,模型的参数通常是预训练好的,所以我们不需要从头开始训练模型。这可以减少计算资源的需求,降低训练成本。

 该策略包括两个阶段。在转移阶段,将标签嵌入的 LRK 和可见特征的 GRK 一起构建生成模型并为看不见的类合成虚拟样本。在增量阶段,在可见样本上训练的增量学习器不断从未见类的生成样本中学习。可见类和不可见类均由经典的 DAP 模型识别。

label embedding 标签嵌入空间

local relational knowledge (LRK)局部关系知识

GRK全局关系知识

局部关系知识是指针对特定情境或场景的知识,它基于该情境中物体或概念之间的关系。这种类型的知识通常是通过直接经验或观察特定环境或系统获得的。

在人工智能和机器学习的背景下,局部关系知识对于对象识别等任务非常重要,其中算法必须能够根据场景中物体之间的关系来识别物体。例如,计算机视觉算法可能使用局部关系知识来识别汽车,基于其与场景中其他物体(如道路、建筑和其他汽车)的关系。

局部关系知识在自然语言处理中也很重要,它被用于理解上下文中单词和句子的含义。例如,单词“银行”的含义可能因使用的上下文而异(如金融机构与河岸边),因此需要局部关系知识来消除在每个上下文中该词的歧义。

在深度学习中,计算局部关系知识的方法通常是使用神经网络模型。神经网络模型是由多个神经元组成的层次结构,每个神经元可以接收来自前一层神经元的输入,并输出到后一层神经元。

在局部关系知识的计算中,神经网络模型通常使用卷积神经网络(CNN)或递归神经网络(RNN)等特定类型的神经网络模型。这些模型可以自动学习输入数据中的特征和关系,并将它们编码为一系列数字或向量,进而计算局部关系知识。

例如,在计算对象识别问题中,输入数据可能是一张图像,神经网络模型可以使用卷积层来提取图像中的特征,然后使用全连接层来计算特征之间的关系。在自然语言处理中,输入数据可能是一个文本序列,神经网络模型可以使用RNN层来捕捉文本序列中单词之间的关系。

在训练神经网络模型时,通常会使用反向传播算法来优化模型参数,从而使得模型能够更好地计算局部关系知识。在应用神经网络模型时,输入数据会经过模型的前向传播过程,从而计算出输出结果,例如图像中的对象类别或文本序列的情感倾向。

全局关系知识是指基于物体或概念之间的关系,不限于特定情境或场景的知识。这种类型的知识通常通过从局部关系知识中进行概括和抽象得到,并可应用于不同的情境和领域。

在人工智能和机器学习中,全局关系知识对于推理和决策等任务非常重要,其中算法必须能够利用多个信息源的知识,并推广到新的情境中。例如,表示领域中实体之间关系的知识图可用于推断新的关系并预测未来事件。

全局关系知识在自然语言处理中也很重要,它被用于理解单词和句子的含义,超越它们的局部上下文。例如,理解“爱”的概念需要知道它与其他概念(如“浪漫”和“承诺”)之间的关系,这些关系可能从多个信息源中学习,并可应用于不同的文本和对话中。

计算方面,全局关系知识可以使用基于图的模型(如知识图)来表示,该模型将实体之间的关系编码为图结构中的节点和边。然后,算法可以在图结构上操作,执行推理和推断任务。

在深度学习中,计算全局关系知识通常需要使用图神经网络模型。图神经网络模型是一种特殊的神经网络模型,它可以处理图结构数据,从而学习和表示全局关系知识。

图神经网络模型的计算通常包括两个主要步骤:图卷积和池化。在图卷积中,模型从相邻节点中聚合信息,并更新每个节点的表示,以捕捉节点之间的关系。在池化中,模型将图中的子图或节点集合归纳为更简单的表示,以便进行更高级别的推理和决策。这些步骤可以通过多个层次的卷积和池化操作来迭代执行。

例如,在知识图谱中,图神经网络模型可以使用节点嵌入和边嵌入来表示实体和关系之间的全局关系知识。节点嵌入是将每个实体表示为一个向量或矩阵,其中向量的每个维度对应于实体的不同属性或特征。边嵌入是将每个关系表示为一个向量或矩阵,其中向量的每个维度对应于关系的不同特征或属性。

在训练图神经网络模型时,通常会使用反向传播算法来优化模型参数,从而使得模型能够更好地学习和表示全局关系知识。在应用图神经网络模型时,输入数据会被表示为图结构,然后经过模型的前向传播过程,从而计算出输出结果,例如节点或边的分类、预测或嵌入表示。

DAP(Data Augmentation by Pairing)方法是一种用于增强数据集的技术,可以应用于监督式学习和无监督式学习任务。该方法通过将原始数据集中的每个样本与另一个样本配对,并在它们之间进行一定的变换,从而生成新的样本。

DAP方法的实现步骤如下:

  1. 对原始数据集中的每个样本,随机选择另一个样本,并将它们配对。

  2. 对每个配对的样本,使用一种或多种变换方式,例如旋转、平移、缩放或翻转等,将它们变换为新的样本。

  3. 将生成的新样本添加到原始数据集中,形成一个增强的数据集。

DAP方法的优点在于它不仅可以增加数据集的数量,而且可以增加数据集的多样性,从而提高模型的泛化能力和鲁棒性。此外,DAP方法不需要额外的标注信息,因此可以应用于许多无监督式学习任务,例如聚类、降维和生成对抗网络等。

DAP方法已经在多个领域和任务中得到了广泛应用,例如图像分类、物体识别、自然语言处理和语音识别等。

特征中心估计是一种统计方法,用于对数据集中的一个或多个特征的中心位置进行估计。这些特征可以包括数值型数据的平均值、中位数或分位数,也可以是分类变量的众数或比例。

方法介绍

转移增量策略图示

       在转移阶段,为不可见类提取局部知识和全局知识,构建生成模型。一方面,LRK 在标签嵌入中从类原型中学习类之间的关系。另一方面,将所见类的特征中心估计为 GRK 以提供与特征相关的信息。局部和全局知识源的并发考虑旨在为看不见的类合成可靠的样本。至于增量阶段,采用增量学习为看不见的类提供有效的训练,减少模型对可见类数据的依赖性。可见和不可见样本的最终类别都是基于 DAP 方法确定的。设计的转移增量策略侧重于虚拟样本的生成和训练过程,以在GZSL设置下获得生成模型的改进性能。

基于双重知识源的转移阶段

GZSL的数据逻辑

 Es 是所见类数据的均值矩阵,每一列是其所见类的平均向量;

Eu 是不可见类数据的均值矩阵;

蓝色箭头表示知识转移;

实心箭头表示某个函数的映射;

W 特征嵌入空间中的线性映射;

Xs 表示可见类的数据;

Xu 表示未见类的数据;

Y 标签

A 属性信息;

Z 合并 A 和 Y 扩展到属性标签 ;

虚线箭头表示看不见类的生成过程。

LRKT传输并应用LRK合成不可见类的虚平均矩阵,解决DAP的移位问题。然而,在提取LRK的过程中,它没有考虑到真实样本。不同的是,我们的方法在特征嵌入空间中估计不可见类的中心作为GRK,使合成的不可见类的整体分布更接近真实分布。

增量训练阶段

f 表示学习器(分类器或回归器);

实线箭头表示一般训练过程;

黑色虚线箭头表示增量学习过程;

红色箭头表示Xs在增量学习期间使用。

CLM 是基本的 DAP 方法。相比之下,IWM 和 IOM 使用看到的数据 {Xs , Zs} 初始化属性学习器,并逐步学习合成样本 { ^XU , ^ZU }。

图片均来自上述文献

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值