【多视图学习】基于多视图信息瓶颈的鲁棒表示学习

在这里插入图片描述

论文链接
代码链接

0.论文摘要和信息

摘要

信息瓶颈原理为表示学习提供了一种信息论方法,通过训练编码器来保留与预测标签相关的所有信息,同时最小化表示中的其他过量信息的量。然而,原始配方需要标记数据来识别多余的信息。在这项工作中,我们将这种能力扩展到多视图无监督设置,其中提供了同一底层实体的两个视图,但标签是未知的。这使我们能够将多余的信息识别为两个视图不共享的信息。理论分析导致了一种新的多视图模型的定义,该模型在MIR-Flickr数据集的粗略数据集和标签有限版本上产生最先进的结果。我们还通过利用标准数据扩充技术将我们的理论扩展到单视图设置,与常见的无监督表示学习方法相比,经验上显示出更好的泛化能力。

1.引言

深度表征学习的目标是将原始观察输入 x x x转换为通常较低维度的表征 z z z,该表征 z z z包含与给定任务或一组任务相关的信息。通过监督表征学习,深度学习取得了重大进展,其中下游任务的标签 y y y是已知的,而 p ( y ∣ x ) p(y|x) p(yx)是直接学习的。由于获取大型标记数据集的成本,最近对无监督表示学习的重新关注试图生成对几乎没有标记数据可用的各种不同任务有用的表示 z z z

我们的工作基于信息瓶颈原理,其中通过丢弃输入中对给定任务无用的所有信息,表示受干扰的影响变得更小,从而提高了鲁棒性。在监督设置中,可以通过最小化数据 x x x和它的表示 z z z,之间的互信息 I ( x ; z ) I(x; z) I(x;z)来直接应用信息瓶颈原理,同时最大化 z z z和标签 y y y之间的互信息。在无监督设置中,仅丢弃多余的信息更具挑战性,因为没有标签,模型无法直接识别哪些信息是相关的。近期文献专注于最大化 I ( x , z ) I(x, z) I(x,z)而不是最小化它的InfoMax目标,以保证所有预测信息都被表示保留,但不做任何事情来丢弃不相关的信息。

在本文中,我们将信息瓶颈方法扩展到无监督多视图设置。为此,我们依赖于多视图文献的一个基本假设——每个视图提供相同的任务相关信息。因此,可以通过从表示中丢弃两个视图不共享的所有信息来提高泛化。我们通过最大化两个视图(多视图InfoMax目标),同时消除它们之间不共享的信息,因为它肯定是多余的。结果表示对于给定的任务更加健壮,因为它们消除了视图特定的麻烦。

我们的贡献有三个:(1)我们将信息瓶颈原理扩展到无监督多视图设置,并为其应用提供了严格的理论分析。(2)我们定义了一个新的模型,该模型在两个标准多视图数据集Sketchy和MIR-Flickr上的低标签设置中根据经验导致最先进的结果。(3)通过利用数据增强技术,我们从经验上表明,我们的模型在单视图设置中学习的表示比现有的无监督表示学习方法更鲁棒,将我们的理论与增强策略的选择联系起来。

2.准备工作与框架

表示学习的挑战可以表述为找到一个分布 p ( z ∣ x ) p(z|x) p(zx),该分布将数据观测值 x ∈ X x ∈ X xX映射到表示 z ∈ Z z ∈ Z zZ中,捕获一些期望的特征。每当最终目标涉及预测标签 y y y时,我们只考虑具有足够辨别能力来识别 y y y z z z。这种要求可以通过考虑在对数据进行编码后保持可访问的标签信息量来量化,并且被称为 z z z y y y的充分性。

定义1 充分性

定义1。充分性: x x x的表示 z z z对于 y y y是充分的当且仅当 I ( x ; y ∣ z ) = 0 I(x; y|z) = 0 I(x;yz)=0

任何能够访问足够表示 z z z的模型必须能够至少像能够访问原始数据 x x x一样准确地预测 y y y。事实上, z z z对于 y y y是足够的当且仅当关于任务的信息量不被编码过程改变(见附录中的命题B.1):

在足够的表示中,那些对未标记的数据实例产生更好的泛化的表示特别有吸引力。当 x x x的信息含量高于 y y y时, x x x中的一些信息一定与预测任务无关。这可以通过使用互信息链式规则将 I ( x ; z ) I(x; z) I(x;z)细分为两个分量来更好地理解(见附录A):

在这里插入图片描述
条件互信息 I ( x ; z ∣ y ) I(x; z|y) I(x;zy)表示 z z z中不能预测 y y y的信息,即冗余信息。而 I ( y ; z ) I(y; z) I(y;z)确定有多少标签信息可以从表示中访问。注意,只要 z z z对于 y y y是足够的,最后一项就与表示无关(参见等式1)。因此,每当 I ( x ; z ∣ y ) I(x; z|y) I(x;zy)最小化时,充分的表示包含最小的数据信息。

最小化冗余信息量只能在监督设置中直接完成。事实上,在不违反充分性约束的情况下减少 I ( x ; z ) I(x; z) I(x;z)必然需要对预测任务做出一些额外的假设(参见附录中的定理B.1)。在下一节中,我们将描述我们技术的基础,这是一种即使在没有观察到标签 y y y的情况下也能安全地减少表示的信息内容的策略,通过利用数据的附加视图形式的冗余信息。

3.多视图信息瓶颈

作为一个激励性的例子,考虑 v 1 v_1 v1 v 2 v_2 v2是同一对象从不同视图的两个图像,并让 y y y是它的标签。假设对象与 v 1 v_1 v1 v 2 v_2 v2都可清楚地区分,则包含从两个视图可访问的所有信息的任何表示 z z z也将包含必要的标签信息。此外,如果 z z z仅捕获从两个图片可见的细节,则它将消除视图特定的细节并降低表示对视图变化的敏感性。支持这种直觉的理论在下面描述,其中 v 1 v_1 v1 v 2 v_2 v2被共同观察并被称为数据视图。

3.1 多视图设置中的充分性和鲁棒性

在本节中,我们将充分性和极小性的分析扩展到多视图设置。直观地,我们可以通过确保 z z z维护由 v 1 v_1 v1 v 2 v_2 v2共享的所有信息来保证 z z z足以预测 y y y,即使不知道 y y y。这种直觉依赖于多视图环境的一个基本假设——两个视图提供相同的预测信息。为了形式化这一点,我们定义了冗余。

定义2 冗余

定义2。冗余:对于 y y y v 1 v_1 v1相对于 v 2 v_2 v2是冗余的当且仅当 I ( y ; v 1 ∣ v 2 ) = 0 I(y; v_1|v_2) = 0 I(y;v1v2)=0

直观地,如果已经观察到 v 2 v_2 v2,则只要视图 v 1 v_1 v1 y y y的预测无关,则视图 v 1 v_1 v1对于任务来说是冗余的。每当 v 1 v_1 v1 v 2 v_2 v2相互冗余时(对于 y y y v 1 v_1 v1相对于 v 2 v_2 v2是冗余的,反之亦然),我们可以证明以下内容:

推论1

推论1。设 v 1 v_1 v1 v 2 v_2 v2是目标 y y y的两个相互冗余的视图,并且 z 1 z_1 z1 v 1 v_1 v1的表示。如果 z 1 z_1 z1 v 2 v_2 v2是充分的 ( I ( v 1 ; v 2 ∣ z 1 ) = 0 ) (I(v_1; v_2|z_1) = 0) (I(v1;v2z1)=0),那么 z 1 z_1 z1 y y y的预测性与两个视图的联合观察 ( I ( v 1 v 2 ; y ) = I ( y ; z 1 ) ) (I(v_1v_2; y) = I(y; z_1)) (I(v1v2;y)=I(y;z1))

换句话说,只要有可能假设相互冗余,包含两个视图共享的所有信息(冗余信息)的任何表示就像它们的联合观察一样具有预测性。通过类似于等式2分解 v 1 v_1 v1 z 1 z_1 z1之间的互信息,我们可以识别两个分量:

在这里插入图片描述
因为 I ( v 2 ; z 1 ) I(v_2; z_1) I(v2;z1)必须是最大的,如果我们希望表示足以用于标签,我们得出结论, I ( v 1 ; z 1 ) I(v_1; z_1) I(v1;z1)可以通过最小化 I ( v 1 ; z 1 ∣ v 2 ) I(v_1; z_1|v_2) I(v1;z1v2)。该术语直观地表示 z 1 z_1 z1包含的信息,该信息对于 v 1 v_1 v1是唯一的,并且不能通过观察 v 2 v_2 v2来预测。由于我们假设两个视图之间存在相互冗余,因此该信息必须与预测任务无关,因此可以安全地丢弃。上述陈述和推论1的证明和形式断言可以在附录B中找到。

两个视图的共同点越少, I ( v 1 ; z 1 ) I(v_1; z_1) I(v1;z1)可以在不违反标签充分性的情况下减少得越多,因此,得到的表示就越健壮。在极端情况下, v 1 v_1 v1 v 2 v_2 v2仅共享标签信息,在这种情况下,我们可以证明 z 1 z_1 z1对于 y y y是最小的,并且我们的方法与监督信息瓶颈方法相同,而不需要访问标签。相反,如果 v 1 v_1 v1 v 2 v_2 v2相同,那么我们的方法退化为InfoMax原理,因为没有信息可以被安全地丢弃(见附录E)。

3.2 多视图信息瓶颈损失函数

给定满足标签 y y y的相互冗余条件的 v 1 v_1 v1 v 2 v_2 v2,我们希望为 v 1 v_1 v1的表示 z 1 z_1 z1定义一个目标函数,该目标函数在不丢失任何标签信息的情况下丢弃尽可能多的信息。在第3.1节中,我们证明了我们可以通过确保 v 1 v_1 v1的表示 z 1 z_1 z1 v 2 v_2 v2是足够的来获得 y y y的充分性,并且减少 I ( z 1 ; v 1 ∣ v 2 ) I(z_1; v_1|v_2) I(z1;v1v2)将通过丢弃不相关的信息来增加表示的鲁棒性。因此,我们可以使用松弛的拉格朗日目标将这两个要求结合起来,以获得 v 2 v_2 v2的最小充分表示 z 1 z_1 z1

在这里插入图片描述
其中 θ θ θ表示对编码器参数 p θ ( z 1 ∣ v 1 ) p_θ(z_1|v_1) pθ(z1v1)的依赖性, λ 1 λ_1 λ1表示约束优化引入的拉格朗日乘子。对称地,我们定义损失 L 2 \mathcal{L_2} L2以优化条件分布 p ψ ( z 2 ∣ v 2 ) p_ψ(z_2|v_2) pψ(z2v2)的参数 ψ ψ ψ,该条件分布 p ψ ( z 2 ∣ v 2 ) p_ψ(z_2|v_2) pψ(z2v2)定义了 v 1 v_1 v1的第二视图 v 2 v_2 v2的最小充分表示 z 2 z_2 z2
在这里插入图片描述
通过在同一域 Z Z Z上定义 z 1 z_1 z1 z 2 z_2 z2,并重新参数化拉格朗日乘子,两个损失函数 L 1 \mathcal{L_1} L1 L 2 \mathcal{L_2} L2的平均值可以上界如下:

在这里插入图片描述
其中 D S K L D_{SKL} DSKL表示通过对两个视图的联合观测值 D K L ( p θ ( z 1 ∣ v 1 ) ∣ ∣ p ψ ( z 2 ∣ v 2 ) ) D_{KL}(p_θ(z_1|v_1)||p_ψ(z_2|v_2)) DKL(pθ(z1v1)∣∣pψ(z2v2)) D K L ( p ψ ( z 2 ∣ v 2 ) ∣ ∣ p θ ( z 1 ∣ v 1 ) ) D_{KL}(p_ψ(z_2|v_2)||p_θ(z_1|v_1)) DKL(pψ(z2v2)∣∣pθ(z1v1))的期望值进行平均而获得的对称化KL散度,而系数 β β β定义了表示的充分性和鲁棒性之间的权衡,这是本工作中的超参数。由此产生的多视图信息瓶颈(MIB)模型(等式5)在图1中可视化,而损失函数的基于批处理的计算在算法1中总结。

在这里插入图片描述
图1:可视化我们的多视图信息瓶颈模型,用于多视图和单视图设置,其中: I ^ ξ ( z 1 ; z 2 ) \hat{I}_ξ(z_1; z_2) I^ξ(z1;z2)指的是基于样本的参数互信息估计。每当 p ( v 1 ) p(v_1) p(v1) p ( v 2 ) p(v_2) p(v2)具有相同的分布时,两个编码器可以共享它们的参数。

只要 p θ ( z 1 ∣ v 1 ) p_θ(z_1|v_1) pθ(z1v1) p ψ ( z 2 ∣ v 2 ) p_ψ(z_2|v_2) pψ(z2v2)具有已知的密度,就可以直接计算对称化KL散度 D S K L ( p θ ( z 1 ∣ v 1 ) ∣ ∣ p ψ ( z 2 ∣ v 2 ) ) D_{SKL}(p_θ(z_1|v_1)||p_ψ(z_2|v_2)) DSKL(pθ(z1v1)∣∣pψ(z2v2)),而两个表示之间的互信息 I θ ψ ( z 1 ; z 2 ) I_{θψ}(z_1; z_2) Iθψ(z1;z2)可以通过使用任何基于样本的可微互信息下界来最大化。我们尝试了詹森-香农 I J S I_{JS} IJS和InfoNCE I N C E I_{NCE} INCE估计量。这两者都需要引入辅助参数模型 C ξ ( z 1 , z 2 ) C_ξ(z_1, z_2) Cξ(z1,z2),该模型在训练过程中使用来自 p θ ( z 1 ∣ v 1 ) p_θ(z_1|v_1) pθ(z1v1) p ψ ( z 2 ∣ v 2 ) p_ψ(z_2|v_2) pψ(z2v2)的重新参数化样本联合优化。MIB损失函数的完整推导见附录F。

3.3 自监督与不变性

当多个视图不可用时,我们的方法也可以通过利用标准的数据扩充技术来应用。这允许直接从增强的数据中学习不变性,而不需要将它们构建到模型架构中。

通过挑选不影响标签信息的数据增强函数 t : X → W t : X → W t:XW的类 T T T,可以人为地构建满足 y y y的相互冗余的视图。设 t 1 t_1 t1 t 2 t_2 t2 T T T上的两个随机变量,那么 v 1 : = t 1 ( x ) v_1 := t_1(x) v1:=t1(x) v 2 : = t 2 ( x ) v_2 := t_2(x) v2:=t2(x)对于 y y y一定是互冗余的。由于 T T T中的数据扩充函数不影响标签信息 ( I ( v 1 ; y ) = I ( v 2 ; y ) = I ( x ; y ) ) (I(v_1; y) = I(v_2; y) = I(x; y)) (I(v1;y)=I(v2;y)=I(x;y)),对于 v 2 v_2 v2来说足够的 v 1 v_1 v1的表示 z 1 z_1 z1必须包含与 x x x相同量的预测信息。该陈述的正式证明可以在附录B.4中找到。

每当同一观测值的两个转换是独立的 ( I ( t 1 ; t 2 ∣ x ) = 0 ) (I(t_1; t_2|x) = 0) (I(t1;t2x)=0)时,它们都会在两个视图中引入不相关的变化,这些变化将在创建使用我们的训练目标进行表征。作为示例,如果 T T T表示一组小平移,则两个结果视图将相差一个小移位。由于该信息不被共享,根据MIB目标是最优的任何 z 1 z_1 z1必须丢弃关于位置的细粒度细节。

为了实现编码器之间的参数共享,我们通过以均匀概率从同一函数类 T T T中独立采样两个函数来生成两个视图 v 1 v_1 v1 v 2 v_2 v2。结果, t 1 t_1 t1 t 2 t_2 t2将具有相同的分布,因此两个生成的视图也将具有相同的边缘 ( p ( v 1 ) = p ( v 2 ) ) (p(v_1) = p(v_2)) (p(v1)=p(v2))。由于这个原因,两个条件分布 p θ ( z 1 ∣ v 1 ) p_θ(z1|v_1) pθ(z1∣v1) p ψ ( z 2 ∣ v 2 ) p_ψ(z_2|v_2) pψ(z2v2)可以共享它们的参数,并且只需要一个编码器。只要两个视图具有相同(或相似)的边缘分布,也可以在多视图设置中应用全部(或部分)参数共享。

4.相关工作

我们的方法和过去在表征学习方面的工作之间的关系最好用信息平面来描述(Tishby等人,2000)。在这种设置中,预测任务 y y y x x x的每个表示 z z z可以由关于原始观察 I ( x ; z ) I(x; z) I(x;z)和可访问预测信息 I ( y ; z ) I(y; z) I(y;z)的相应度量的信息量来表征(分别在图2上的x和y轴)。理想情况下,良好的表示将最大限度地提供关于标签的信息,同时保留来自观察的最小量的信息(平行四边形的左上角)。附录C描述了图2中可视化的信息平面和边界的更多细节。

在这里插入图片描述图2:由 I ( x ; z ) I(x; z) I(x;z)(x轴)和 I ( y ; z ) I(y; z) I(y;z)(y轴)确定的信息平面。根据目标对不同的目标进行比较。

由于互信息估计的最新进展,InfoMax原理在无监督表征学习方面获得了关注。由于InfoMax目标涉及最大化 I ( x ; z ) I(x; z) I(x;z),结果表示旨在保留关于原始观测值的所有信息(图2中的右上角)。

并发工作在多视图设置中应用了InfoMax原理(季等,2019;H́enaff等人,2019;田等,2019;Bachman等人,2019),旨在最大化第一数据视图 x x x和第二数据视图 v 2 v_2 v2的表示 z z z之间的互信息。多视图InfoMax(MV-InfoMax)模型的目标表示应至少包含 x x x中预测 v 2 v_2 v2的信息量,目标是信息平面上的区域 I ( z ; x ) ≥ I ( x ; v 2 ) I(z; x) ≥ I(x; v_2) I(z;x)I(x;v2)(图2中的紫色虚线)。由于MV-InfoMax没有动机从 z z z中丢弃关于 x x x的任何信息,因此根据InfoMax原理最优的表示对于任何MV-InfoMax模型也是最优的。我们的 β = 0 β=0 β=0(等式5)模型属于这一系列目标,因为去除多余信息的动机被去除。尽管他们取得了成功,Tschannen等人(2019)已经表明,InfoMax模型的有效性是由于架构和估计器引入的归纳偏差,而不是训练目标本身,因为InfoMax和MV-InfoMax目标可以通过使用可逆编码器来最大化。

另一方面,变分自编码器(VAE)(Kingma&Welling,2014)通过超参数 β β β定义了平衡压缩和重建误差(Alemi等人,2018)的训练目标。每当 β β β接近0时,VAE目标的目标是无损表示,接近与InfoMax目标区域相同的信息平面区域(Barber&Agakov,2003)。当 β β β接近大值时,表示变得更加压缩,显示出增加的泛化和解缠(Higgins等人,2017;Burgess等人,2018),并且,随着 β β β接近无穷大, I ( z ; x ) I(z; x) I(z;x)趋于零。然而,在从低 β β β到高 β β β的转变过程中,不能保证VAE将保留标签信息(附录中的定理B.1)。两种制度之间的路径取决于标签信息与编码器(Jimenez Rezende&Mohamed,2015;Kingma等人,2016)、prior(Tomczak&Welling,2018)和解码器架构(Gulrajani等人,2017;陈等,2017)。

Tishby等人(2000)提出了丢弃不相关信息的想法,并被Tishby&Zaslavsky(2015)和Achille&Soatto(2018)确定为深度神经网络泛化能力背后的可能原因之一。基于信息瓶颈原理的表示明确地最小化了表示中的冗余信息量,同时保留了来自数据的所有标签信息(图2中信息平面的左上角)。这一研究方向已经针对单视图(Alemi等人,2018)和多视图设置(Wang等人,2019)进行了探索,即使需要显式标签监督来训练表示 z z z

与上述所有工作相反,我们的工作是第一个在无监督多视图设置中从表示中明确识别和丢弃多余信息的工作。这是因为基于β-VAE目标的无监督模型不加选择地删除信息,而没有识别哪个部分与预测任务相关,并且InfoMax和多视图InfoMax方法根本没有明确地尝试删除多余的信息。另一方面,MIB目标导致具有最少冗余信息的表示,即根据多视图InfoMax最优的表示中最健壮的表示,而不需要任何额外的标签监督。

5.实验

在本节中,我们展示了我们的模型在多视图和单视图设置中相对于最先进基线的有效性。在单视图设置中,我们还估计了每种基线方法以及验证第3节中理论的方法在信息平面上的坐标。

以下章节中报告的结果是使用詹森-香农IJS获得的(Devon Hjelm等人,2019年;Poole等人,2019年)估计器,这使得MIB和其他基于InfoMax的模型具有更好的性能(补充材料中的表2)。为了便于比较不同损失函数的效果,在不同模型中使用相同的估计器。

5.1 多视图任务

我们将基于草图的图像检索(Sangkloy等人,2016年)和Flickr多类图像分类(Huiskes&Lew,2008年)任务中的MIB与特定领域和先前的多视图学习方法进行了比较。

5.1.1 基于草图的图像检索

数据集

粗略数据集(Sangkloy等人,2016年)由125个类别的12,500张图像和75,471张手绘物体草图组成。如刘等人(2017),我们还包括来自ImageNet(Deng等人,2009)的来自相同类别的另外60,502幅图像,这导致总共73,002幅自然物体图像。根据张等人(2018)的实验方案,从训练集中随机选择总共6,250个草图(每个类别50个草图)并删除用于测试目的,剩下69,221个草图用于训练模型。

实验设置

基于草图的图像检索任务是根据看不见的测试(查询)草图对73002幅自然图像进行排序。对于我们的模型,检索是通过生成查询草图以及所有自然图像的表示,并通过它们的表示与草图表示的欧几里德距离对图像进行排序来完成的。基线使用各种特定领域的排名方法。基于对应于查询草图的排名图片的类别来计算模型性能。训练集由从同一类中随机选择的图像 v 1 v_1 v1和草图 v 2 v_2 v2对组成,以确保两个视图包含等效的标签信息(相互冗余)。

根据最近的工作(张等人,2018;Dutta&Akata,2019),我们使用经过分类训练的VGG(Simonyan&Zisserman,2014)架构从图像和草图中提取的特征在TU-Berlin数据集上(Eitz等人,2012年)。得到的展平4096维特征向量被馈送到我们的图像和草图编码器,以产生64维表示。两种编码器均由神经网络组成,隐藏层分别为2048个和1024个单元。在验证子分割上调整表示的大小和正则化强度 β β β。我们在五个不同的训练/测试分割上评估MIB,并在表5.1.1中报告平均值和标准偏差。有关我们训练程序和架构的更多详细信息,请参见附录G。

结论

表5.1.1显示,我们的模型在平均平均精度(mAP@all)和200精度(Prec@200)方面都实现了很强的性能,这表明该表示能够捕获配对图片和草图之间的公共类别信息。MIB在检索任务中的有效性主要归因于两个编码视图之间的对称KL散度引入的正则化。除了丢弃视图私有信息之外,该术语还主动地对齐了 v 1 v_1 v1 v 2 v_2 v2的表示,使得MIB模型特别适合于检索任务

在这里插入图片描述表1:来自草图数据集的两个视图和类标签的示例(左),以及MIB和文献中关于基于草图的图像检索任务的其他流行模型之间的比较(右)。*表示使用64位二进制表示的模型。MIB的结果对应于 β = 1 β=1 β=1

5.1.2 MIR-FLICKR

数据集

MIR-Flickr数据集(Huiskes&Lew,2008)由100万张带有80万个不同用户标签的图像组成。每个图像由3,857个手工制作的图像特征( v 1 v_1 v1)的向量表示,而2,000个最常见的标签用于为每个图像产生2000维多热编码( v 2 v_2 v2)。数据集被分为标记集和未标记集,分别包含975K和25K图像,其中标记集还包含38个不同的主题类以及用户标签。少于两个标签的训练图像被移除,这将训练样本总数减少到749,647对(Sohn et al.,2014;王等,2016)。标记集包含5个不同的训练集、验证集和测试集,大小分别为10K/5K/10K。

实验设置

遵循文献中的标准程序(Srivastava&Salakhutdinov,2014;Wang等人,2016),我们在未标记的图像和标签对上训练我们的模型。然后,从10K个标记训练图像的表示到相应的宏类别训练多标签逻辑分类器。基于训练的逻辑分类器在标记的测试集上的性能来评估表示的质量。每个编码器由4个隐藏层的多层感知器组成,ReLU激活分别学习图像 v 1 v_1 v1和标签 v 2 v_2 v2的两个1024维表示 z 1 z_1 z1 z 2 z_2 z2。关于训练过程的两个视图、标签和进一步细节的示例在附录G中。

结论

我们的MIB模型与图3中其他流行的多视图学习模型进行了比较,其中 β = 0 β=0 β=0(多视图InfoMax)、 β = 1 β=1 β=1 β = 1 0 − 3 β=10^{−3} β=103(验证集上的最佳)。尽管调谐MIB的性能类似于具有大量标签的多视图InfoMax,但当可用标签较少时,它的性能优于它。此外,通过选择较大的 β β β,我们的模型的准确性在稀缺标签制度下急剧增加,而当观察到所有标签时,准确性略有降低(见图3右侧)。这种影响很可能是由于违反了相互的冗余约束(见补充材料中的图6),可以用较小的β值来补偿,以实现不太激进的压缩。

在这里插入图片描述
MIB相对于一些其他基线的有效性的一个可能原因可能是其使用不需要重建的互信息估计器的能力。多视图VAE(MVAE)和深度变分CCA(VCCA)都依赖于重建项来捕获跨模态信息,这可能会引入降低性能的偏差。

5.2 自监督单视图任务

在本节中,我们通过测量不同无监督学习模型的数据效率和根据经验估计它们在信息平面上的表示坐标来比较它们的性能。由于互信息的准确估计极其昂贵(McAllester&Stratos,2018),我们专注于相对较小的实验,旨在揭示表征学习的流行方法之间的差异。

数据集

通过对每个图像应用由小仿射变换和独立像素损坏组成的数据增强,通过创建两个视图 v 1 v_1 v1 v 2 v_2 v2,从MNIST生成数据集。这些保持足够小,以确保标签信息不受影响。每对视图都是从相同的底层图像生成的,因此在此过程中不使用标签信息(详见附录G)。

实验设置

为了评估,我们使用刚才描述的未标记多视图数据集训练编码器,然后修复表示模型。使用所得表示以及训练集的标签子集来训练逻辑回归模型,我们报告了该模型在不相交测试集上的准确性,这是无监督表示学习文献的标准(Tschannen等人,2019;田等,2019;van den Oord等人,2018)。我们估计 I ( x ; z ) I(x; z) I(x;z) I ( y ; z ) I(y; z) I(y;z)使用互信息估计网络,该网络使用批量联合样本 { ( x ( i ) , y ( i ) , z ( i ) ) } i = 1 B ∼ p ( x , y ) p θ ( z ∣ x ) \{(x^{(i)}, y^{(i)}, z^{(i)})\}^B_{i=1} ∼ p(x, y)p_θ(z|x) {(x(i),y(i),z(i))}i=1Bp(x,y)pθ(zx)在最终表示上从头开始训练。

所有模型都使用相同的编码器架构进行训练,该架构由2层1024个隐藏单元组成,具有ReLU激活,从而产生64维表示。相同的数据扩充过程也应用于单视图架构,并且模型被训练了100万次迭代,批量大小B=64。

结论

图4总结了结果。在信息平面上报告的互信息的经验测量与第4节中报告的理论分析一致:在保持最大量预测信息量的同时保留较少数据信息的模型在低标签制度下导致更好的分类性能,证实了丢弃不相关信息会产生鲁棒性和更有效的数据表示的假设.值得注意的是, β = 1 β=1 β=1的MIB模型几乎只保留标签信息,当每个数据点仅使用一个标签时,几乎不会降低分类性能。

在这里插入图片描述
图4:在MNIST数据集上比较不同目标获得的表示。信息平面上坐标的经验估计(在左侧的NAT中)之后是不同数量的随机采样标签(从每个标签1个示例到每个标签6000个示例)的相应分类精度。丢弃更多观察信息的表示往往在稀缺标签制度中表现更好。附录G.4.1中报告了用于生成两个图的测量值。

6.结论和今后的工作

在这项工作中,我们介绍了多视图信息瓶颈,这是一种利用多个数据视图为下游任务产生鲁棒表示的新方法。在我们的实验中,我们将MIB与文献中的其他方法在三个这样的任务上进行了经验比较:基于草图的图像检索、多视图和无监督表示学习。在不同领域获得的强大性能表明,多视图信息瓶颈可以实际应用于各种任务,对于这些任务,成对观测值要么容易获得,要么人工产生。此外,MIR-Flickr数据集上的积极结果表明,即使相互冗余仅近似成立,我们的模型在实践中也能很好地工作。

我们希望在未来的工作中探索多个扩展。一个有趣的方向是考虑两个以上的视图。在附录D中,我们讨论了为什么互冗余条件不能简单地扩展到两个以上的视图,但我们仍然相信这样的扩展是可能的。其次,我们认为探索数据增强的不同选择所起的作用可以弥合信息瓶颈原理和不变神经网络文献(Bloem-Reddy&Whye Teh,2019)之间的差距,不变神经网络能够利用数据的已知对称性和结构来删除多余的信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

量子-Alex

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值