Unsupervised Domain Adaptation by Backpropagation小猛阅读整理

1、 论文下载链接及小猛的整理规则

  • 论文已上传至我的资源供各位研友免费下载:原文下载
  • 原文整理中出现我觉得重要或不解的点会通通加粗,"//"中写的是我自己的吐槽,与论文无关。
  • 每一小节整理之后会对应的提出问题,请大佬们多多指教,不胜感激。

2、摘要

2.1、摘要中文整理

  • 表现顶尖的深度架构是基于大量有标签数据训练而来的。而在某些缺少标签数据的任务中,假如有性质相似但来自不同领域的标记数据(如合成图像)可用,域适应就成了一个迷人的选择。在这,作者提出了一个新的深度体系结构中的域适应方法,这个方法可以基于源域中大量的有标签数据和目标域中大量无标签数据训练(目标域的无标签数据是必要的)。
  • 随着训练进行,该方法促进了一种特别的“深度”特征出现,这种深度特征具有两个特点:
    (1)与源域中的主要学习任务有所区别
    (2)对于域之间的转移具有不变性
    作者证明:通过增加一些标准层和一个简单的新式梯度反转层,可以使得这种适应行为在几乎任何前馈模型中实现。使用标准的反向传播就可以训练出由此产生的强化结构。
  • 总的来说,使用任何深度学习包都可以很容地实现该方法。该理论在一系列分类实验中都表现得很好,在存在巨大域偏移的情况下取得不俗的自适应效果,并且在Office数据集中的表现超过了此前的最先进模型。/牛/

2.2、小猛的懵点和理解

2.2.1、本文想解决什么问题

  • 阅读摘要后,我认为本文想解决的是当一个深度任务缺少足够的有标签样本甚至完全没有有标签样本的时候我们还能怎么解决我们想解决的任务。
  • 文章给出的答案是一种新的域适应方法。新在哪里呢?反向传播达到的无监督域适应嘛,我刚刚涉足此领域,理解有误或者没法理解的点,希望大佬能在评论区告诉我。

2.2.2、gradient reversal layer(梯度反转层)是什么东西,有什么意义

  • 文中提出增加一个gradient reversal layer(梯度反转层),摘要过后该层的意义我还搞不明白,但是觉得这东西肯定是这篇论文的一个小关键点,求教各位大佬。

3、介绍

3.1、介绍中文整理

  • 深度前馈结构在海量的各种机器学习以及应用中为最先进的技术带来肉眼可见的进步,然而当下,这些表现性能的剧变无不需要大量有标签训练样本作为前提。与此同时,对于缺乏有标签数据的问题,是仍然有可能获得足够大的训练集用以训练大规模深度模型的,但测试时会遇到实际数据分布发生变化的问题。一个特别重要的例子就是合成数据和半合成数据,他们可以大量生成并且被全部标记,但是不可避免地会与实际数据的分布有差别。
  • 在训练分布与测试分布存在偏差的情况下训练一个判别分类器或其他预测器被称作域适应。在浅层学习的背景下提出大量域适应的方法,例如数据表示/特征是给定和固定的情况。然后这些方法建立源域(训练时)和目标域(测试时)的映射关系,当在源域学到的分类器与域间的映射组合起来时,就也可被目标域使用了。域适应方法的吸引力在于,它有能力在目标域完全没有标签(无监督的域适应)或只有很少标签的情况下(半监督域适应)学习域之间的映射。本文中,作者专注于更难的无监督情况,而且提出的方法可以直接推广到半监督情况。
  • 不像大多数之前的域适应论文那样,用固定的特征表征开展工作,作者专注于在一个训练过程里(深度域适应)结合域适应和深度特征学习。作者的目标是把域适应融入学习表征的过程之中,所以最终的分类决策是基于对域变化具有判别性和不变性做出的。即在源域和目标域拥有非常相同的分布。这样,得到的前馈网络就可以不受两个域之间转移的阻力而用到目标域去。
  • 我们因此专注于学习结合判别性和不变性的特征。这是通过利用这些特征工作的两种判别分类器联合优化底层特征获得的,分类器分为:(1)在训练和测试时都用到的预测类别标签的标签预测器(2)只在训练时用到的域分类器,域分类器用来判别源域和目标域。分类器的参数是为了减少训练时的分类器的损失而优化,底层深度特征映射的参数是为了最小化标签分类器且最大化域分类器的损失而优化的
  • 至关重要的是:作者证明了三个训练过程都可以嵌入到一个组装合适的前馈网络中(图一),并且用基于**随机梯度下降算法或其修正(例如带动量的SGD)**的标准反向传播算法训练。作者的方法是通用的,它可以被用来将域适应嵌入任何用反向传播算法训练的前馈网络结构。在实践中,该结构唯一非标准的组件是一个相当普通的梯度反转层,该梯度反转层在正向传播期间保持输入不变,在反向传播期间通过乘以一个负标量来逆转梯度。下面,作者将详细介绍该深度结构中的域适应方法,并在传统的深度学习图像数据集上/数据集略,可以看原文去/展示结果,在那些数据集上该方法精度远超之前最先进的方法。

3.2、小猛的理解和懵点

3.2.1、本方法新在哪里

  • 通过介绍,我获得方法的创新之处,与传统的域适应不同之处在于,他将域适应的过程嵌入了深度学习的训练之中,并且可以嵌入任何反向传播算法训练的前馈网络上,相当的厉害。

3.2.2、gradient reversal layer(梯度反转层)是什么东西,有什么意义

*该梯度反转层在正向传播期间保持输入不变,在反向传播期间通过乘以一个负标量来逆转梯度。虽然知道它是干嘛的了,但还是不知道它对模型的作用和意义。有待了解整个运行结构和机制后尝试理解。

3.2.3、SGD(随机梯度下降法)是什么

  • 惭愧,这大概是一个很基础的点,由于我专业知识的不牢靠而不了解,特去学习了一下。
  • 随机梯度下降每次更新只用一个样本,而梯度下降其实是需要所有样本参与获得全局最优解的(如批量梯度下降),那为什么用随机梯度下降呢,因为快!虽然最终结果在最优解附近,有些偏差,但在数据规模很大的情况下,一个样本一个样本的更新明显要快过大规模所有样本一起训练更新,这是小猛理解的随机梯度下降算法。

4、相关工作

4.1、相关工作中文整理

  • 最近几年学界提出大量的域适应理论,在这本文聚焦于最新的几种。大部分的方法是通过匹配源域和目标域的特征分布来实现无监督域适应的。一些方法通过重新称重或从源域选择样本来实现这一点,其他的则寻找一种明确的特征空间转变将源分布映射到目标分布。分布匹配方法的一个重要方面是测量测量分布之间的相似度。在此,一种比较流行的选择是匹配在核复制希尔伯特空间中的分布均值,即绘制与每个分布相关的主轴。本文的方法也是尝试匹配特征空间分布,但是本论文是通过修改特征表征本身而不是重称重或者几何变化达成目的的。而且,本文的方法(隐式)地使用了一种相当不同的方法,通过深度判别训练分类器,基于分布的可分性来衡量分布之间的差异
  • 有几种方法通过逐渐改变训练分布实现从源到目标域的逐步过渡。这些方法通过一边对一系列深度自动编码器进行分层训练,一边用目标域样本逐步替换源域样本的“深度”模式实现这一点。这改进了一个类似的方法,那个方法只是简单的为两个领域训练一个单独的深度自动编码器。**在两类方法中,实际的分类器/预测器都是使用自动编码器学习的特征表征在单独一步中学得的。**与(Glorot et al.,2011; S. Chopra & Gopalan, 2013)相比,本文的方法在一个统一架构里联合实现了特征学习、域适应和分类器,并且使用单一的学习算法(反向传播)。因此本文认为本文的方法更加简单(无论是概念方面还是实现方面)。本文的方法也在流行的Office基准上取得了更好的结果。
  • 虽然上述方法执行无监督域适应,但是也有一些方法通过利用来自目标域的有标签数据来实现有监督域适应。在深度前馈体系结构的背景下,这些数据可以用来微调在源域中训练的网络。本文的方法不需要有标签的目标域数据。同时,当这些数据可用时,也可以很容易的合并。
  • 与本文的方法相关的一个想法被(Glorot et al.,2011; S. Chopra & Gopalan, 2013)描述过。但他们的目标与我们很不一样(建立可生成样本的生成深度网络),他们衡量和最小化训练数据和合成数据分布不一致的方法与我们结构的相应方法非常类似。
  • 最近几年,前馈神经网络的域适应已经引起了学界极大的兴趣。因此,在(Ajakan et al., 2014)中,一个与本文的想法非常相似的想法已经在浅层架构(有一个单独的隐藏层)中被并行且独立地开发出来了。他们的系统在自然语言任务(情感分析)上进行评估。此外,(Tzeng et al., 2014;Long & Wang, 2015)最近同时发出的报告也聚焦于前馈网络的域适应。**他们的那套技术衡量并最小化了跨域数据分布方式之间的距离。**他们的工作因此与本文的想法不同,本文的想法是通过使域分类器无法区分不同域间的数据来借此匹配分布的。下面,本文在Office基准上比较了他们的方法和本文的方法。另一种深度领域适应的方法同时在 (Chen et al., 2015)中开发出来,该方法与本文的方法更加不同。

4.2、小猛的理解和懵点

4.2.1、作者对其他方法的解读让人懵

  • “匹配在核复制希尔伯特空间中的分布方式”的方法具体怎么实现,有待学习
  • 逐步改变训练分布,训练从源域到目标域逐步过渡的方法是怎么实现的,慢慢用目标域数据替换源域数据就可以实现了?小猛发懵!

4.2.2、作者最后拎出来与本文对比的方法到底哪里不一样

  • 我的理解是(Tzeng et al., 2014;Long & Wang, 2015)这群哥们通过最小化域间距离,那本文不是嘛?那可能在域适应分类那块有文章。但是在这里解释使分类器分不清是来自哪一个域不就是最小化类间距离的进一步体现嘛?求大佬指教,我再细看下一节看看能不能找出答案(虽然不一定看的懂)。

5、深度域适应

5.1、深度域适应中文整理

5.1.1、模型

  • 本文在此描述所提出的域适应模型的细节。本文假定模型输入样本x属于样本空间X,输出标签y属于标签空间Y。下面,本文假定分类问题中的Y是有限集,然而,本文的方法是通用的,可以处理其他深度前馈模型可以处理的任何输出标签。我们进一步假定存在两个分布S(x,y)和T(x,y),这将被称为源分布和目标分布(或者源域和目标域)。两种分布都被假定是复杂并且未知的,并且除此之外,也是相似但不同的(换句话说,S是通过一些域偏移从T中偏移过来的)。
  • 本文的最终目标是能够预测目标分布给定输入x的输出标签y。在训练时,本文有一个大的训练样本集,这些样本集来自源域和目标域,按照边缘分布S与T分布。我们用di这个二元标签(域标签)来定义第i个样本,代表这个样本是来自哪个域的,如果di=0则是来自源域,如果di=1则是来自目标域。来自源域的样本本文在训练时就已知他的标签,但是来自目标域的样本,本文在训练时并不知道他的标签,并且本文想要在测试时预测这样的标签。
  • 本文现在定义了一个深度前馈网络结构,该结构为每一个输入x预测它的输出标签y和它的域标签d。本文将这种映射解构成三个部分。本文假设输入x首先通过映射Gf(一个特征提取器)到一个D维特征向量f。这个特征映射也包含几个前馈网络层,并且本文将这个映射中所有层中的参数定义为 θf,则f=Gf(x; θf)。然后,特征向量f被一个映射Gy映射到标签y,并且我们用θy定义这个映射中所有的参数。最后,同样的特征参数被映射Gd(域分类)映射到一个域标签,Gd中的所有参数被定义为 θd(如图1)。
  • 在学习时,本文想要在注释部分最小化源域集的标签损失(源域部分),并且特征提取器和标签预测器都为了减少源域样本的经验损失而被优化。这确保了特征f的判别性,又保证了特征提取器与标签预测器组合在源域上总体具有良好的预测性能。
  • 同时,本文想要使特征f具有域不变性。即,我们想要使分布S与T相似。**在协变量位移假设下,这将使目标域上的标签预测精度与源域上相同。**然而,假设f是高维的,测量分布S和T的不同是不简单的,并且分布本身在学习过程中是不断变化的。当域分类器参数θd在区分两种特征分布的性能上已经被训练到最佳的情况下,一个评估不相似性的方法就是看域分类器Gd。
  • 这个观察引出了本文的想法。在训练时为了获得域不变特征,本文需要特征映射的参数θf最大化域分类器的损失(通过使两个特征分布尽量一致),同时本文使域分类器的参数θd损失最小化/我懂了,这里产生了一个对抗网络,底层特征越来越让域分类器分辨不出,域分类器就要分辨出来,两相对抗产生最优解/。除此之外,本文还最小化标签预测器的损失。
  • 更进一步,本文考虑了功能性:

在这里插入图片描述在此,Ly是标签预测器的损失(多项式回归),Ld是域分类器的损失(logistic回归),Liy和Lid表示在第i个训练例中求得的相应的损失函数。

  • 基于我们的想法,我们用以下公示更新每一步的参数:

在这里插入图片描述

  • 在变化点,域分类器参数 θd在迭代并最小化域分类器损失的同时参与参数 θy和 θf的迭代使标签损失最小化,而θf在迭代最小化标签分类器的损失后最大化域分类器的损失。参数λ用来控制学习时两种塑造特征的目标的权重。
  • 下面,本文证明了标准随机梯度求解器(SGD)可以适用于鞍点(2)-(3)的搜索。

5.1.2、反向传播的优化

  • 各点的参数更新如下:

在这里插入图片描述

  • µ在此是学习率(会随时间变化)。(4)-(6)步的更新与前馈模型的随机梯度算法更新非常类似,该模型包括输入标签预测器和域分类器的特征提取器。差异是(4)中的−λ因子(这个差异非常重要,没有这个因子,随机梯度下降将会通过最小化域分类损失来使特征不相似)。尽管直接实现(4)-(6)作为SGD是不可能的,但对于某些形式的SGD减少更新(4)-(6)是有希望的,因为SGD(及其变体)是大多数深度学习包中实现的主要学习算法。
  • 幸运的是,这种缩小可以通过引进一个特殊的梯度反向层(GRL)来实现。梯度反转层没有与之相关的参数(除了元参数 λ,不会被反向传播更新)。在前向传播中,梯度反向层表现的像个身份转换器。在反向传播中,它从下一层取梯度,乘以−λ并将其传递到前一层。使用现有的面向对象的深度学习包实现这一层很简单,因为定义前向支撑(身份 转换),反向支撑(乘以一个常量),并且更新参数(没有参数)是非常简单的。
  • 上述GRL被插在特征提取器和域分类器之间,构建了如图1的结构。当反向传播通过GRL时,GRL下游层参数的损失(Ld)被偏导,而GRL上游的层参数(θf)乘以−λ,也就是原偏导被乘以-λ替代了。因此,在生成的模型中运行SGD实现了更新(4)-(6),并收敛到鞍点(1).
  • 数学层面上,本文可以把GRL的前馈和反向传播的形式用以下两个公示表示:

在这里插入图片描述
这里I是一个身份矩阵。本文可以用被随机梯度下降法优化过的参数定义我们的伪函数:

在这里插入图片描述

  • 运行更新(4)-(6)可以将更新后的参数用以(9)中的随机梯度下降并且使特征的域不变性和可区分性同时出现。学习后,分类预测器可以被用作预测目标域的标签(也可以预测来自源域的标签)。
  • 上述提出的简单过程可以按照 (Goodfel-
    low et al., 2014)(参加补充材料 (Ganin &
    Lempitsky, 2015))。

5.2、小猛的理解和懵点

5.2.1、协变量位移假设

  • 这个协变量位移假设我忘记是什么东西了,查询后发现很简单,即虽然原图的分布可能发生变化,但是条件分布不会改变。

5.2.2、随机梯度下降中的batch

  • 是指在执行随机梯度下降算法的时候,我们循环迭代几个样本进行参数更新。

5.2.3、目标域样本的yi没有,怎么训练损失函数

6、实验略

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

油光发亮的小猛

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值