全文翻译如下:
本文从理论和算法两个角度研究了无监督域适应问题。现有的领域自适应理论中自然隐含着极大极小优化算法,它们与基于对抗学习的领域自适应方法有着很好的结合。然而,几种脱节现象仍然存在,形成了理论与算法之间的鸿沟。我们将之前的理论( Mansour et al . , 2009c ; Ben-David et al , 2010)扩展到领域自适应中的多类分类,其中基于评分函数和边界损失的分类器是算法设计中的标准选择。我们引入了边缘差异度,这是一种新的具有严格泛化边界的度量方法,它针对非对称边缘损失的分布比较和更易于训练的minimax优化。我们的理论可以无缝地转化为领域自适应的对抗学习算法,成功地弥合了理论与算法之间的鸿沟。一系列的实证研究表明,我们的算法在具有挑战性的领域适应任务上达到了最新的精度。
1. Introduction
学习理论中通常假设训练和测试数据来自同分布。如果我们训练有监督学习器的源域与应用学习器的目标域有本质上的不同,则不存在良好泛化的可能性。然而,我们可能期望通过利用来自相似但不同领域的标记数据来训练模型,这是领域自适应处理( Quionero-坎德拉et al , 2009 ; Pan & Yang , 2010)的关键机器学习设置。
领域自适应已经取得了显著的理论进展。Mansour等( 2009c );Ben-David et al . ( 2010 )为无监督域适应提供了严格的学习边界,是该领域最具挑战性的场景。这些最早的理论后来在很多方面得到了扩展,从损失函数到贝叶斯设定和回归问题( Mohri & Medina , 2012 ;赫尔马因et al , 2013 ; Cortes et al , 2015)。此外,基于假设加权组合的理论也被发展用于多源域适配(填鸭器et al , 2008 ; Mansour et al , 2009b ; a ; Hoffman et al , 2018a)。
与理论发现相同,领域适应算法也有丰富的进展。之前的工作探索了各种统计量匹配(潘文卿等, 2011 ; Tzeng等, 2014 ; Long et al . , 2015 ; 2017年)和差异最小化( Ganin & Lempitsky , 2015 ; Ganin et al , 2016)的技术。其中,对抗学习方法具有较强的理论洞见。受古德费洛等人( 2014 )的启发,这些方法建立在领域判别器和特征提取器之间的双人博弈之上。目前的工作以不同的方式探索对抗学习,在许多任务( Tzeng等, 2017 ; Saito等, 2018 ; Long等, 2018)上取得了最新的研究成果。
虽然许多领域自适应算法可以被粗略地解释为最小化理论中的分布差异,但几个脱节仍然在理论和算法之间形成不可忽视的鸿沟。首先,使用打分函数的域适应算法缺乏理论保证,因为之前的工作只是简单地研究了该场景下的0 - 1分类损失。同时,在理论和算法( Ganin & Lempitsky , 2015 ;格雷顿et al , 2012 ; Long et al , 2015 ; Courty et al , 2017)中广泛使用的分歧之间存在差距。
本工作旨在弥合领域自适应理论与算法之间的鸿沟。我们对领域适应中的分类任务进行了新的理论分析,为算法设计提供了明确的指导。我们将现有的理论扩展到基于评分函数和间隔损失的分类器,更接近于真实任务的选择。我们定义了一个新的散度- -边缘差异散度( Margin Disparity Discrepancy ),并基于Rademacher复杂度给出了边缘感知的泛化边界,揭示了泛化误差和边缘选择之间存在折衷。我们的理论可以无缝地转化为对抗学习算法进行领域自适应,在几个具有挑战性的真实任务上达到了当前的精度。
2. Preliminaries
在这一部分我们介绍了领域适应中分类问题的基本记号和假设。
2.1. Learning Setup
在监督学习设置中,学习器从
X
×
Y
\mathcal{X} \times \mathcal{Y}
X×Y中接收一个有
n
n
n个标记点的样本
{
(
x
i
,
y
i
)
}
i
=
1
n
\left\{\left(x_i, y_i\right)\right\}_{i=1}^n
{(xi,yi)}i=1n,其中
X
\mathcal{X}
X为输入空间,
Y
\mathcal{Y}
Y为输出空间,二分类时为
{
0
,
1
}
\{0,1\}
{0,1},多分类时为
{
1
,
…
,
k
}
\{1, \ldots, k\}
{1,…,k}。如果按照分布
D
D
D独立绘制,则用
D
^
\widehat{D}
D
表示。
在无监督域适应中,存在源点
P
P
P 和目标点
Q
Q
Q两种不同的分布,学习器在源点分布中抽取的有标签样本
P
^
=
{
(
x
i
s
,
y
i
s
)
}
i
=
1
n
\widehat{P}=\left\{\left(x_i^s, y_i^s\right)\right\}_{i=1}^n
P
={(xis,yis)}i=1n和目标点分布中抽取的无标签样本
Q
^
=
\widehat{Q}=
Q
=
{
x
i
t
}
i
=
1
m
\left\{x_i^t\right\}_{i=1}^m
{xit}i=1m上进行训练。
遵循Mohri et al . ( 2012 )的思想,我们考虑评分函数
f
:
X
→
R
∣
Y
∣
=
R
k
f: \mathcal{X} \rightarrow \mathbb{R}^{|\mathcal{Y}|}=\mathbb{R}^k
f:X→R∣Y∣=Rk的假设空间
F
\mathcal{F}
F上的多类分类,其中每个维度上的输出表示预测的置信度。稍微滥用符号,我们考虑
f
:
X
×
Y
→
R
f: \mathcal{X} \times \mathcal{Y} \rightarrow \mathbb{R}
f:X×Y→R,
f
(
x
,
y
)
f(x, y)
f(x,y)表示
f
(
x
)
f(x)
f(x)对应于标签
y
y
y的分量.与x点相关联的预测标签即为得分最大的标签。由此导出一个包含
h
f
h_f
hf的标记函数空间
H
\mathcal{H}
H ,从
X
\mathcal{X}
X到
Y
\mathcal{Y}
Y:
h
f
:
x
↦
arg
max
y
∈
Y
f
(
x
,
y
)
.
h_f: x \mapsto \underset{y \in \mathcal{Y}}{\arg \max } f(x, y) .
hf:x↦y∈Yargmaxf(x,y).
给出了分类器
h
∈
H
h \in \mathcal{H}
h∈H关于分布D的(期望)错误率和经验错误率
err
D
(
h
)
≜
E
(
x
,
y
)
∼
D
1
[
h
(
x
)
≠
y
]
,
err
D
^
(
h
)
≜
E
(
x
,
y
)
∼
D
ˉ
1
[
h
(
x
)
≠
y
]
=
1
n
∑
i
=
1
n
1
[
h
(
x
i
)
≠
y
i
]
,
\begin{aligned} \operatorname{err}_D(h) & \triangleq \mathbb{E}_{(x, y) \sim D} \mathbb{1}[h(x) \neq y], \\ \operatorname{err}_{\widehat{D}}(h) & \triangleq \mathbb{E}_{(x, y) \sim \bar{D}} \mathbb{1}[h(x) \neq y] \\ & =\frac{1}{n} \sum_{i=1}^n \mathbb{1}\left[h\left(x_i\right) \neq y_i\right], \end{aligned}
errD(h)errD
(h)≜E(x,y)∼D1[h(x)=y],≜E(x,y)∼Dˉ1[h(x)=y]=n1i=1∑n1[h(xi)=yi],
其中,
1
\mathbb{1}
1为指示函数。在进一步讨论之前,假设常量分类器
1
∈
H
1 \in \mathcal{H}
1∈H,且
H
\mathcal{H}
H在
Y
\mathcal{Y}
Y的排列下是封闭的。对于二分类问题,这等价于假设对任意的
h
∈
H
h \in \mathcal{H}
h∈H,都有
1
−
h
∈
H
1-h \in \mathcal{H}
1−h∈H。
2.2. Margin Loss
在实际应用中,数据点与分类面之间的间隔对于实现强泛化性能具有重要作用。因此,Koltchinskii等( 2002 )提出了分类边际理论,用边际损失代替0 - 1损失。
定义假设
f
f
f在有标签样本
(
x
,
y
)
(x, y)
(x,y)处的边界为
ρ
f
(
x
,
y
)
≜
1
2
(
f
(
x
,
y
)
−
max
y
′
≠
y
f
(
x
,
y
′
)
)
.
\rho_f(x, y) \triangleq \frac{1}{2}\left(f(x, y)-\max _{y^{\prime} \neq y} f\left(x, y^{\prime}\right)\right) .
ρf(x,y)≜21(f(x,y)−y′=ymaxf(x,y′)).
假设
f
f
f对应的边际损失和经验边际损失为
err
D
(
ρ
)
(
f
)
≜
E
x
∼
D
Φ
ρ
∘
ρ
f
(
x
,
y
)
err
D
^
(
ρ
)
(
f
)
≜
E
x
∼
D
^
Φ
ρ
∘
ρ
f
(
x
,
y
)
=
1
n
∑
i
=
1
n
Φ
ρ
(
ρ
f
(
x
i
,
y
i
)
)
,
\begin{gathered} \operatorname{err}_D^{(\rho)}(f) \triangleq \mathbb{E}_{x \sim D} \Phi_\rho \circ \rho_f(x, y) \\ \operatorname{err}_{\widehat{D}}^{(\rho)}(f) \triangleq \mathbb{E}_{x \sim \widehat{D}} \Phi_{\rho \circ} \rho_f(x, y)=\frac{1}{n} \sum_{i=1}^n \Phi_\rho\left(\rho_f\left(x_i, y_i\right)\right), \end{gathered}
errD(ρ)(f)≜Ex∼DΦρ∘ρf(x,y)errD
(ρ)(f)≜Ex∼D
Φρ∘ρf(x,y)=n1i=1∑nΦρ(ρf(xi,yi)),
其中,
∘
\circ
∘ 表示函数复合,且
Φ
ρ
\Phi_\rho
Φρ是
Φ
ρ
(
x
)
≜
{
0
ρ
≤
x
1
−
x
/
ρ
0
≤
x
≤
ρ
.
1
x
≤
0
\Phi_\rho(x) \triangleq \begin{cases}0 & \rho \leq x \\ 1-x / \rho & 0 \leq x \leq \rho . \\ 1 & x \leq 0\end{cases}
Φρ(x)≜⎩
⎨
⎧01−x/ρ1ρ≤x0≤x≤ρ.x≤0
一个重要的性质是对任意的
ρ
>
0
\rho>0
ρ>0 and
f
∈
F
f \in \mathcal{F}
f∈F,都有
err
D
(
ρ
)
(
f
)
≥
err
D
(
h
f
)
\operatorname{err}_D^{(\rho)}(f) \geq \operatorname{err}_D\left(h_f\right)
errD(ρ)(f)≥errD(hf)。Koltchinskii等( 2002 )的研究表明,边界损失会导致分类的信息泛化边界。在这一开创性工作的基础上,我们将发展领域适应中的分类边界。
3. Theoretical Guarantees
在这一部分,我们给出了域适应的理论保证。所有的证明都可以在附录A - C中找到。
为了降低只在源域上有标记训练数据的目标域上的错误率,分布
P
P
P和
Q
Q
Q 不应该有本质的不同。因此,对两者差异的测量在领域适应理论中至关重要。在开创性的工作( Ben-David et al , 2010)中,提出了
H
Δ
H
\mathcal{H} \Delta \mathcal{H}
HΔH 散度来衡量这种差异,
d
H
Δ
H
=
sup
h
,
h
′
∈
H
∣
E
Q
1
[
h
′
≠
h
]
−
E
P
1
[
h
′
≠
h
]
∣
.
d_{\mathcal{H} \Delta \mathcal{H}}=\sup _{h, h^{\prime} \in \mathcal{H}}\left|\mathbb{E}_Q \mathbb{1}\left[h^{\prime} \neq h\right]-\mathbb{E}_P \mathbb{1}\left[h^{\prime} \neq h\right]\right| .
dHΔH=h,h′∈Hsup∣EQ1[h′=h]−EP1[h′=h]∣.
Mansour等( 2009c )将
H
Δ
H
\mathcal{H} \Delta \mathcal{H}
HΔH散度推广到一般的损失函数,得到了差异距离:
disc
L
=
sup
h
,
h
′
∈
H
∣
E
Q
L
(
h
′
,
h
)
−
E
P
L
(
h
′
,
h
)
∣
,
\operatorname{disc}_L=\sup _{h, h^{\prime} \in \mathcal{H}}\left|\mathbb{E}_Q L\left(h^{\prime}, h\right)-\mathbb{E}_P L\left(h^{\prime}, h\right)\right|,
discL=h,h′∈Hsup∣EQL(h′,h)−EPL(h′,h)∣,
式中:
L
L
L应为满足对称性和三角不等式的有界函数。值得注意的是,许多广泛使用的损失,如margin loss,并不满足这些要求。
在这些差异度量下,基于VC维和Rademacher复杂度严格推导了领域自适应的泛化边界。虽然这些理论在推进算法设计方面产生了重要影响,但有两个重要的改进方向:
- 带有评分函数的分类泛化界限尚未在领域适应设置中得到正式研究。由于带有边界损失的评分函数在标准分类中提供了有信息的泛化边界,因此有强烈的动机开发一个用于领域适应的边界理论。
- 假设引起的偏差需要在假设空间 H Δ H \mathcal{H} \Delta \mathcal{H} HΔH上取上确界,而获得较低的泛化界则需要对抗地最小化这些偏差。计算上确界需要 H Δ H \mathcal{H} \Delta \mathcal{H} HΔH上的遍历性,并且该问题中的最优假设可能与最优分类器存在显著差异,这大大增加了优化的难度。因此,迫切需要理论上证明的算法,不仅最小化源域上的经验误差,而且最小化差异度量。
这些方向是实际算法设计中的痛点。在使用评分函数设计域适应算法时,由于理论和算法中使用的损失函数之间存在差距,我们可能会怀疑算法是否在理论上有保证。另一个差距在于假设导致的理论差异和领域适应算法中广泛使用的分歧,包括Jensen Shannon Divergence ( Ganin & Lempitsky , 2015)、Maximum Mean Disrepancy ( Long et al , 2015)和wasserstein距离( Courty等, 2017)。在这项工作中,我们旨在通过定义一个新的、理论上合理的边缘视差差异来弥合领域自适应理论和算法之间的这些差距。
3.1. Margin Disparity Discrepancy
首先,我们通过限制假设空间,给出了一种改进的度量分布差异的差异度。
给定两个假设
h
,
h
′
∈
H
h, h^{\prime} \in \mathcal{H}
h,h′∈H,我们定义它们之间的(期望) 0 - 1视差为
disp
D
(
h
′
,
h
)
≜
E
D
1
[
h
′
≠
h
]
,
\operatorname{disp}_D\left(h^{\prime}, h\right) \triangleq \mathbb{E}_D \mathbb{1}\left[h^{\prime} \neq h\right],
dispD(h′,h)≜ED1[h′=h],
而经验上的0 - 1差距为
disp
D
^
(
h
′
,
h
)
≜
E
D
^
1
[
h
′
≠
h
]
=
1
n
∑
i
=
1
n
1
[
h
′
(
x
i
)
≠
h
(
x
i
)
]
.
\operatorname{disp}_{\widehat{D}}\left(h^{\prime}, h\right) \triangleq \mathbb{E}_{\widehat{D}} \mathbb{1}\left[h^{\prime} \neq h\right]=\frac{1}{n} \sum_{i=1}^n \mathbb{1}\left[h^{\prime}\left(x_i\right) \neq h\left(x_i\right)\right] .
dispD
(h′,h)≜ED
1[h′=h]=n1i=1∑n1[h′(xi)=h(xi)].
定义3.1 (视差差异, DD) .给定一个假设空间
H
\mathcal{H}
H 和一个特定的分类器
h
∈
H
h \in \mathcal{H}
h∈H,由
h
′
∈
H
h^{\prime} \in \mathcal{H}
h′∈H 诱导的差异度( DD )定义为
d
h
,
H
(
P
,
Q
)
≜
sup
h
′
∈
H
(
disp
Q
(
h
′
,
h
)
−
disp
P
(
h
′
,
h
)
)
=
sup
h
′
∈
H
(
E
Q
1
[
h
′
≠
h
]
−
E
P
1
[
h
′
≠
h
]
)
.
\begin{aligned} d_{h, \mathcal{H}}(P, Q) & \triangleq \sup _{h^{\prime} \in \mathcal{H}}\left(\operatorname{disp}_Q\left(h^{\prime}, h\right)-\operatorname{disp}_P\left(h^{\prime}, h\right)\right) \\ & =\sup _{h^{\prime} \in \mathcal{H}}\left(\mathbb{E}_Q \mathbb{1}\left[h^{\prime} \neq h\right]-\mathbb{E}_P \mathbb{1}\left[h^{\prime} \neq h\right]\right) . \end{aligned}
dh,H(P,Q)≜h′∈Hsup(dispQ(h′,h)−dispP(h′,h))=h′∈Hsup(EQ1[h′=h]−EP1[h′=h]).
类似地,经验视差差异为
d
h
,
H
(
P
^
,
Q
^
)
≜
sup
h
′
∈
H
(
disp
Q
^
(
h
′
,
h
)
−
disp
P
^
(
h
′
,
h
)
)
d_{h, \mathcal{H}}(\widehat{P}, \widehat{Q}) \triangleq \sup _{h^{\prime} \in \mathcal{H}}\left(\operatorname{disp}_{\widehat{Q}}\left(h^{\prime}, h\right)-\operatorname{disp}_{\widehat{P}}\left(h^{\prime}, h\right)\right)
dh,H(P
,Q
)≜h′∈Hsup(dispQ
(h′,h)−dispP
(h′,h))
注意到视差差异不仅依赖于假设空间
H
\mathcal{H}
H,还依赖于特定的分类器
h
h
h。我们将证明这种差异可以很好地度量分布(实际上是二元情况下的伪度量)的差异,从而得到二分类的VC维泛化界。附录B提供了该标准情况的另一种分析。与
H
Δ
H
\mathcal{H} \Delta \mathcal{H}
HΔH -散度相比,视差偏差中的上确界仅在假设空间
H
\mathcal{H}
H上方,因此更容易优化。这将大大缓解在许多领域适应算法中广泛使用的minimax优化。
正如Koltchinskii et al . ( 2002 )所设想的那样,在多类分类的情况下,得分函数的边界成为信息泛化界的一个重要因素。现有的域适应理论( Ben-David et al , 2007 ; 2010 ;布利策et al , 2008 ; Mansour et al , 2009c)并没有给出带有评分函数和边界损失的泛化边界的形式化分析。为了弥补通常分析具有对称性和次可加性的标记函数和损失函数的理论与广泛采用打分函数和边缘损失的算法之间的差距,我们提出了基于边缘的视差差异。
定义边际差异,即通过将0 - 1损失变为边际损失的差异,其经验版本从假设
f
f
f 变为
f
′
f^{\prime}
f′
disp
D
(
ρ
)
(
f
′
,
f
)
≜
E
D
Φ
ρ
∘
ρ
f
′
(
⋅
,
h
f
)
disp
D
^
(
ρ
)
(
f
′
,
f
)
≜
E
D
^
Φ
ρ
∘
ρ
f
′
(
⋅
,
h
f
)
=
1
n
∑
i
=
1
n
Φ
ρ
∘
ρ
f
′
(
x
i
,
h
f
(
x
i
)
)
.
\begin{aligned} \operatorname{disp}_D^{(\rho)}\left(f^{\prime}, f\right) & \triangleq \mathbb{E}_D \Phi_\rho \circ \rho_{f^{\prime}}\left(\cdot, h_f\right) \\ \operatorname{disp}_{\widehat{D}}^{(\rho)}\left(f^{\prime}, f\right) & \triangleq \mathbb{E}_{\widehat{D}} \Phi_\rho \circ \rho_{f^{\prime}}\left(\cdot, h_f\right) \\ & =\frac{1}{n} \sum_{i=1}^n \Phi_\rho \circ \rho_{f^{\prime}}\left(x_i, h_f\left(x_i\right)\right) . \end{aligned}
dispD(ρ)(f′,f)dispD
(ρ)(f′,f)≜EDΦρ∘ρf′(⋅,hf)≜ED
Φρ∘ρf′(⋅,hf)=n1i=1∑nΦρ∘ρf′(xi,hf(xi)).
注意到
f
f
f 和
f
′
f^{\prime}
f′是打分函数,
h
f
h_f
hf和
h
f
′
h_{f^{\prime}}
hf′是它们的标记函数.另外需要注意的是,边缘差异不是关于
f
f
f和
f
′
f^{\prime}
f′的对称函数,这种损失的推广理论关于可能与要求对称性和次可加性的差异距离( Mansour et al , 2009c)有很大不同。
定义3.2 (边缘不平衡量( Margin Disparity Discrepancy , MDD )) .根据边缘差异的定义,我们定义了边缘差异差异( MDD )及其经验版本
d
f
,
F
(
ρ
)
(
P
,
Q
)
≜
sup
f
′
∈
F
(
disp
Q
(
ρ
)
(
f
′
,
f
)
−
disp
P
(
ρ
)
(
f
′
,
f
)
)
d
f
,
F
(
ρ
)
(
P
^
,
Q
^
)
≜
sup
f
′
∈
F
(
disp
Q
^
(
ρ
)
(
f
′
,
f
)
−
disp
P
^
(
ρ
)
(
f
′
,
f
)
)
.
\begin{aligned} & d_{f, \mathcal{F}}^{(\rho)}(P, Q) \triangleq \sup _{f^{\prime} \in \mathcal{F}}\left(\operatorname{disp}_Q^{(\rho)}\left(f^{\prime}, f\right)-\operatorname{disp}_P^{(\rho)}\left(f^{\prime}, f\right)\right) \\ & d_{f, \mathcal{F}}^{(\rho)}(\widehat{P}, \widehat{Q}) \triangleq \sup _{f^{\prime} \in \mathcal{F}}\left(\operatorname{disp}_{\widehat{Q}}^{(\rho)}\left(f^{\prime}, f\right)-\operatorname{disp}_{\widehat{P}}^{(\rho)}\left(f^{\prime}, f\right)\right) . \end{aligned}
df,F(ρ)(P,Q)≜f′∈Fsup(dispQ(ρ)(f′,f)−dispP(ρ)(f′,f))df,F(ρ)(P
,Q
)≜f′∈Fsup(dispQ
(ρ)(f′,f)−dispP
(ρ)(f′,f)).
由于
d
f
,
F
(
ρ
)
(
P
,
P
)
=
0
d_{f, \mathcal{F}}^{(\rho)}(P, P)=0
df,F(ρ)(P,P)=0且满足非负性和次可加性,所以边缘视差差异( MDD )是定义良好的。尽管存在不对称性,MDD有能力测量领域适应在以下命题上的分布差异。
命题3.3。对于每一个得分函数
f
f
f,
err
Q
(
h
f
)
≤
err
P
(
ρ
)
(
f
)
+
d
f
,
F
(
ρ
)
(
P
,
Q
)
+
λ
\operatorname{err}_Q\left(h_f\right) \leq \operatorname{err}_P^{(\rho)}(f)+d_{f, \mathcal{F}}^{(\rho)}(P, Q)+\lambda
errQ(hf)≤errP(ρ)(f)+df,F(ρ)(P,Q)+λ
其中
λ
=
λ
(
ρ
,
F
,
P
,
Q
)
\lambda=\lambda(\rho, \mathcal{F}, P, Q)
λ=λ(ρ,F,P,Q)为理想的组合保证金损失:
λ
=
min
f
∗
∈
H
{
err
P
(
ρ
)
(
f
∗
)
+
err
Q
(
ρ
)
(
f
∗
)
}
\lambda=\min _{f^* \in \mathcal{H}}\left\{\operatorname{err}_P^{(\rho)}\left(f^*\right)+\operatorname{err}_Q^{(\rho)}\left(f^*\right)\right\}
λ=f∗∈Hmin{errP(ρ)(f∗)+errQ(ρ)(f∗)}
这个上界与Ben - David等人( 2010 )提出的学习界具有相似的形式.
λ
\lambda
λ由量化"适应性"逆的学习问题决定,如果假设空间足够丰富,
λ
\lambda
λ可以减小到一个很小的值.
err
P
(
ρ
)
(
f
)
\operatorname{err}_P^{(\rho)}(f)
errP(ρ)(f)刻画了
f
f
f 在源域上的表现,MDD限制了由域偏移引起的性能差距.这个边界为分析域适应的评分函数和边界损失提供了一个新的视角。
3.2. Domain Adaptation: Generalization Bounds
在本小节中,我们提供了几种基于边界损失和边界视差差异( MDD )的多类域适应的泛化边界。首先,我们给出了MDD与其经验版本之间差异的Rademacher复杂度界.然后,我们结合MDD的Rademacher复杂度界和命题3.3得到最终的推广界。
首先,我们引入一个新的函数类
Π
H
F
\Pi_{\mathcal{H}} \mathcal{F}
ΠHF,作为Ben - David等( 2010 )中对称差分假设空间
H
Δ
H
\mathcal{H} \Delta \mathcal{H}
HΔH 的"打分"版本。为了更加直观,我们在附录(定义C.3 )中也给出了该概念的几何解释。
定义3.4 .给定一类得分函数
F
\mathcal{F}
F 和一类诱导分类器
H
\mathcal{H}
H,我们定义
Π
H
F
\Pi_{\mathcal{H}} \mathcal{F}
ΠHF 为
Π
H
F
=
{
x
↦
f
(
x
,
h
(
x
)
)
∣
h
∈
H
,
f
∈
F
}
.
\Pi_{\mathcal{H}} \mathcal{F}=\{x \mapsto f(x, h(x)) \mid h \in \mathcal{H}, f \in \mathcal{F}\} .
ΠHF={x↦f(x,h(x))∣h∈H,f∈F}.
现在我们引入泛化理论中常用的Rademacher复杂度作为对特定假设空间( Mohri et al , 2012)的丰富度的度量。
定义3.5 ( Rademacher复杂度) .设
F
\mathcal{F}
F是一个从
Z
=
X
×
Y
\mathcal{Z}=\mathcal{X} \times \mathcal{Y}
Z=X×Y到
[
a
,
b
]
[a, b]
[a,b] 的函数族,
D
^
=
{
z
1
,
…
,
z
n
}
\widehat{D}=\left\{z_1, \ldots, z_n\right\}
D
={z1,…,zn}是从
Z
\mathcal{Z}
Z上的分布
D
D
D中抽取的一个大小为n的固定样本
ℜ
^
D
^
(
F
)
≜
E
σ
sup
f
∈
F
1
n
∑
i
=
1
n
σ
i
f
(
z
i
)
.
\widehat{\Re}_{\widehat{D}}(\mathcal{F}) \triangleq \mathbb{E}_\sigma \sup _{f \in \mathcal{F}} \frac{1}{n} \sum_{i=1}^n \sigma_i f\left(z_i\right) .
ℜ
D
(F)≜Eσf∈Fsupn1i=1∑nσif(zi).
其中
σ
i
\sigma_i
σi 是取值于
{
−
1
,
+
1
}
\{-1,+1\}
{−1,+1}的独立均匀随机变量. Rademacher复杂度为
ℜ
n
,
D
(
F
)
≜
E
D
^
∼
D
n
ℜ
^
D
^
(
F
)
.
\Re_{n, D}(\mathcal{F}) \triangleq \mathbb{E}_{\widehat{D} \sim D^n} \widehat{\Re}_{\widehat{D}}(\mathcal{F}) .
ℜn,D(F)≜ED
∼Dnℜ
D
(F).
结合Rademacher复杂度,我们进一步表明MDD可以通过有限样本进行很好的估计。
引理3.6 .对任意的
δ
>
0
\delta>0
δ>0,以概率
1
−
2
δ
1-2 \delta
1−2δ,对任意的得分函数
f
f
f,有
∣
d
f
,
F
(
ρ
)
(
P
^
,
Q
^
)
−
d
f
,
F
(
ρ
)
(
P
,
Q
)
∣
≤
2
k
ρ
ℜ
n
,
P
(
Π
H
F
)
+
2
k
ρ
ℜ
m
,
Q
(
Π
H
F
)
+
log
2
δ
2
n
+
log
2
δ
2
m
\begin{aligned} & \left|d_{f, \mathcal{F}}^{(\rho)}(\widehat{P}, \widehat{Q})-d_{f, \mathcal{F}}^{(\rho)}(P, Q)\right| \\ \leq & \frac{2 k}{\rho} \Re_{n, P}\left(\Pi_{\mathcal{H}} \mathcal{F}\right)+\frac{2 k}{\rho} \Re_{m, Q}\left(\Pi_{\mathcal{H}} \mathcal{F}\right)+\sqrt{\frac{\log \frac{2}{\delta}}{2 n}}+\sqrt{\frac{\log \frac{2}{\delta}}{2 m}} \end{aligned}
≤
df,F(ρ)(P
,Q
)−df,F(ρ)(P,Q)
ρ2kℜn,P(ΠHF)+ρ2kℜm,Q(ΠHF)+2nlogδ2+2mlogδ2
该引理证明了关于
f
f
f的期望MDD可以由样本上计算的经验MDD一致逼近。误差项由假设集的复杂度、间隔
ρ
\rho
ρ、类别数
k
k
k和样本容量
n
,
m
n, m
n,m控制。
结合命题3.3和引理3.6,我们通过经验MDD得到了基于Rademacher复杂度的期望目标误差的一个推广界。
定理3.7 (推广界)。给定与定义3.5相同的设定,对于任意的
δ
>
0
\delta>0
δ>0,以概率
1
−
3
δ
1-3 \delta
1−3δ,我们对所有的打分函数
f
f
f有如下一致的推广界:
err
Q
(
f
)
≤
err
P
^
(
ρ
)
(
f
)
+
d
f
,
F
(
ρ
)
(
P
^
,
Q
^
)
+
λ
+
2
k
2
ρ
ℜ
n
,
P
(
Π
1
F
)
+
2
k
ρ
ℜ
n
,
P
(
Π
H
F
)
+
2
log
2
δ
2
n
+
2
k
ρ
ℜ
m
,
Q
(
Π
H
F
)
+
log
2
δ
2
m
\begin{aligned} \operatorname{err}_Q(f) & \leq \operatorname{err}_{\widehat{P}}^{(\rho)}(f)+d_{f, \mathcal{F}}^{(\rho)}(\widehat{P}, \widehat{Q})+\lambda \\ & +\frac{2 k^2}{\rho} \Re_{n, P}\left(\Pi_1 \mathcal{F}\right)+\frac{2 k}{\rho} \Re_{n, P}\left(\Pi_{\mathcal{H}} \mathcal{F}\right)+2 \sqrt{\frac{\log \frac{2}{\delta}}{2 n}} \\ & +\frac{2 k}{\rho} \Re_{m, Q}\left(\Pi_{\mathcal{H}} \mathcal{F}\right)+\sqrt{\frac{\log \frac{2}{\delta}}{2 m}} \end{aligned}
errQ(f)≤errP
(ρ)(f)+df,F(ρ)(P
,Q
)+λ+ρ2k2ℜn,P(Π1F)+ρ2kℜn,P(ΠHF)+22nlogδ2+ρ2kℜm,Q(ΠHF)+2mlogδ2
其中
Π
1
(
F
)
\Pi_1(\mathcal{F})
Π1(F)定义为
Π
1
F
≜
{
x
↦
f
(
x
,
y
)
∣
y
∈
Y
,
f
∈
F
}
\Pi_1 \mathcal{F} \triangleq\{x \mapsto f(x, y) \mid y \in \mathcal{Y}, f \in \mathcal{F}\}
Π1F≜{x↦f(x,y)∣y∈Y,f∈F}
并且
λ
=
λ
(
ρ
,
F
,
P
,
Q
)
\lambda=\lambda(\rho, \mathcal{F}, P, Q)
λ=λ(ρ,F,P,Q) 是与
f
f
f无关的常数.
注意,记号
Π
1
F
\Pi_1 \mathcal{F}
Π1F来自Mohri et al ( 2012 ),其中1表示映射所有点到同一个类的常数函数,
Π
1
F
\Pi_1 \mathcal{F}
Π1F可以看作是
F
\mathcal{F}
F 在每个维度(见附录引理C.4)上的投影的并。因为Rademacher复杂度只定义在实值函数类上,所以需要这样的投影。
与基于0 - 1损失和
H
Δ
H
\mathcal{H} \Delta \mathcal{H}
HΔH divergence ( Ben-David et al , 2010 ; Mansour et al , 2009c)的界相比,该泛化界的信息更丰富。通过选择更好的间隔
ρ
\rho
ρ,我们可以在目标域上取得更好的泛化能力。此外,我们还指出,在
ρ
\rho
ρ的选择上存在泛化和优化的权衡。对于较小的
ρ
\rho
ρ和丰富的假设空间,前两项根据
ρ
\rho
ρ相差不大,因此右端随着
ρ
\rho
ρ的增大而变小。然而,对于过大的
ρ
\rho
ρ,这些项无法优化到可接受的小值。
尽管我们已经证明了边界界,但定理3.7中Rademacher复杂度的值仍然不够明确。因此,我们在附录中加入了一个线性分类器的例子(例C.9 )。我们还需要检验
ℜ
n
,
D
(
Π
H
F
)
\Re_{n, D}\left(\Pi_{\mathcal{H}} \mathcal{F}\right)
ℜn,D(ΠHF)随
n
n
n的增长的变化情况。为此,我们给出了Zhou ( 2002 )中覆盖数的概念;Anthony &巴特利特( 2009 );Talagrand ( 2014 )。
直观上,覆盖数
N
2
(
τ
,
G
)
\mathcal{N}_2(\tau, \mathcal{G})
N2(τ,G)是覆盖有界函数
g
:
X
→
R
g: \mathcal{X} \rightarrow \mathbb{R}
g:X→R类
G
\mathcal{G}
G 所需的半径为
τ
>
0
\tau>0
τ>0 的
L
2
\mathcal{L}_2
L2球的最小个数,可以理解为
G
\mathcal{G}
G类在尺度
τ
\tau
τ上的丰富度的度量。附录中给出了严格的定义,并证明了MDD的覆盖数的下界.
定理3.8 (具有覆盖数的广义界)。在定理3.7相同的条件下,进一步假设
Π
1
F
\Pi_1 \mathcal{F}
Π1F在
L
2
\mathcal{L}_2
L2 中由
L
L
L有界.对于
δ
>
0
\delta>0
δ>0,以概率
1
−
3
δ
1-3 \delta
1−3δ,我们对所有得分函数
f
f
f有如下一致的推广界:
err
Q
(
f
)
≤
err
P
^
(
ρ
)
(
f
)
+
d
f
,
F
(
ρ
)
(
P
^
,
Q
^
)
+
λ
+
2
log
2
δ
2
n
+
log
2
δ
2
m
+
16
k
2
k
ρ
inf
ϵ
≥
0
{
ϵ
+
3
(
1
n
+
1
m
)
(
∫
ϵ
L
log
N
2
(
τ
,
Π
1
F
)
d
τ
+
L
∫
ϵ
/
L
1
log
N
2
(
τ
,
Π
1
H
)
d
τ
)
}
.
\begin{aligned} \operatorname{err}_Q(f) & \leq \operatorname{err}_{\widehat{P}}^{(\rho)}(f)+d_{f, \mathcal{F}}^{(\rho)}(\widehat{P}, \widehat{Q})+\lambda+2 \sqrt{\frac{\log \frac{2}{\delta}}{2 n}} \\ & +\sqrt{\frac{\log \frac{2}{\delta}}{2 m}}+\frac{16 k^2 \sqrt{k}}{\rho} \inf _{\epsilon \geq 0}\left\{\epsilon+3\left(\frac{1}{\sqrt{n}}+\frac{1}{\sqrt{m}}\right)\right. \\ & \left.\left(\int_\epsilon^L \sqrt{\log \mathcal{N}_2\left(\tau, \Pi_1 \mathcal{F}\right)} d \tau+L \int_{\epsilon / L}^1 \sqrt{\log \mathcal{N}_2\left(\tau, \Pi_1 \mathcal{H}\right)} \mathrm{d} \tau\right)\right\} . \end{aligned}
errQ(f)≤errP
(ρ)(f)+df,F(ρ)(P
,Q
)+λ+22nlogδ2+2mlogδ2+ρ16k2kϵ≥0inf{ϵ+3(n1+m1)(∫ϵLlogN2(τ,Π1F)dτ+L∫ϵ/L1logN2(τ,Π1H)dτ)}.
与3.7相比,Rademacher复杂度项被更直观和具体的覆盖数概念所取代。理论上,当
k
=
2
k=2
k=2时,覆盖数也是
Π
H
F
\Pi_{\mathcal{H}} \mathcal{F}
ΠHF的Rademacher复杂度和VC维风格界之间的桥梁.为了说明这一点,我们需要脂肪破碎维度(门德尔松& Vershynin , 2003 ;拉赫林&斯里达兰, 2014)的概念。为了简洁起见,我们将定义和结果留给附录(定理C.19 ),这里我们表明我们的结果在样本复杂度的排序上与Ben - David等( 2010 )一致。
综上所述,我们的理论是对填补本节开头提到的两个空白的大胆尝试。首先,我们对域适应中的多类分类进行了深入分析。其次,我们的界是基于得分函数和保证金损失。第三,作为分布偏移的度量,MDD通过简单地在单个假设空间
F
\mathcal{F}
F上取上确界来定义,使得极小极大优化问题更容易求解。
4. Algorithm
根据以上理论,我们提出了面向领域自适应的对抗表示学习方法。
4 . 1 .极小极大优化问题
回想目标域上的期望误差
err
Q
(
f
)
\operatorname{err}_Q(f)
errQ(f)由四项之和有界:源域上的经验边界误差
err
P
^
(
ρ
)
(
f
)
\operatorname{err}_{\widehat{P}}^{(\rho)}(f)
errP
(ρ)(f),经验
MDD
d
f
,
F
(
ρ
)
(
P
^
,
Q
^
)
\operatorname{MDD} d_{f, \mathcal{F}}^{(\rho)}(\widehat{P}, \widehat{Q})
MDDdf,F(ρ)(P
,Q
),理想误差
λ
\lambda
λ和复杂度项.我们需要在假设空间
F
\mathcal{F}
F中求解最优分类器f的最小化问题:
min
f
∈
F
err
P
^
(
ρ
)
(
f
)
+
d
f
,
F
(
ρ
)
(
P
^
,
Q
^
)
\min _{f \in \mathcal{F}} \operatorname{err}_{\widehat{P}}^{(\rho)}(f)+d_{f, \mathcal{F}}^{(\rho)}(\widehat{P}, \widehat{Q})
f∈FminerrP
(ρ)(f)+df,F(ρ)(P
,Q
)
由于MDD被定义为假设空间
F
\mathcal{F}
F上的上确界,因此最小化边界差异是一个极小极大博弈。由于最大播放器仍然太强,我们引入了一个特征提取器
ψ
\psi
ψ使得最小播放器更强。将
ψ
\psi
ψ应用于源和目标经验分布,整体优化问题可以写为
min
f
,
ψ
err
ψ
(
P
^
)
(
ρ
)
(
f
)
+
(
disp
ψ
(
Q
^
)
(
ρ
)
(
f
∗
,
f
)
−
disp
ψ
(
P
^
)
(
ρ
)
(
f
∗
,
f
)
)
,
f
∗
=
max
f
′
(
disp
ψ
(
Q
^
)
(
ρ
)
(
f
′
,
f
)
−
disp
ψ
(
P
^
)
(
ρ
)
(
f
′
,
f
)
)
.
\begin{gathered} \min _{f, \psi} \operatorname{err}_{\psi(\widehat{P})}^{(\rho)}(f)+\left(\operatorname{disp}_{\psi(\widehat{Q})}^{(\rho)}\left(f^*, f\right)-\operatorname{disp}_{\psi(\widehat{P})}^{(\rho)}\left(f^*, f\right)\right), \\ f^*=\max _{f^{\prime}}\left(\operatorname{disp}_{\psi(\widehat{Q})}^{(\rho)}\left(f^{\prime}, f\right)-\operatorname{disp}_{\psi(\widehat{P})}^{(\rho)}\left(f^{\prime}, f\right)\right) . \end{gathered}
f,ψminerrψ(P
)(ρ)(f)+(dispψ(Q
)(ρ)(f∗,f)−dispψ(P
)(ρ)(f∗,f)),f∗=f′max(dispψ(Q
)(ρ)(f′,f)−dispψ(P
)(ρ)(f′,f)).
为了实现基于表示的域适应,我们需要学习新的表示
ψ
\psi
ψ使得MDD最小化。
现在我们设计一个对抗学习算法来解决这个问题,通过引入一个与f共享相同假设空间的辅助分类器
f
′
f^{\prime}
f′ 。这在对抗网络中得到了很好的实现,如图1所示。此外,由于保证金损失在实际中很难通过随机梯度下降( SGD )进行优化,我们使用损失函数
L
L
L和
L
′
L^{\prime}
L′的组合来代替保证金损失,这很好地保留了保证金的关键性质。对抗学习中的实际优化问题表述为
min
∫
,
ψ
E
(
P
^
)
+
η
D
γ
(
P
^
,
Q
^
)
,
max
f
′
D
γ
(
P
^
,
Q
^
)
,
\begin{gathered} \min _{\int, \psi} \mathcal{E}(\widehat{P})+\eta \mathcal{D}_\gamma(\widehat{P}, \widehat{Q}), \\ \max _{f^{\prime}} \mathcal{D}_\gamma(\widehat{P}, \widehat{Q}), \end{gathered}
∫,ψminE(P
)+ηDγ(P
,Q
),f′maxDγ(P
,Q
),
其中
η
\eta
η是源误差
E
(
P
^
)
\mathcal{E}(\widehat{P})
E(P
)和
MDD
D
γ
(
P
^
\operatorname{MDD} \mathcal{D}_\gamma(\widehat{P}
MDDDγ(P
之间的折中系数,
Q
^
)
,
γ
≜
exp
ρ
\widehat{Q}), \gamma \triangleq \exp \rho
Q
),γ≜expρ被设计来获得裕度
ρ
\rho
ρ (在下一小节详述) .具体而言:
E
(
P
^
)
=
E
(
x
s
,
y
s
)
∼
P
^
L
(
f
(
ψ
(
x
s
)
)
,
y
s
)
D
(
P
^
,
Q
^
)
=
E
x
t
∼
Q
^
L
′
(
f
′
(
ψ
(
x
t
)
)
,
f
(
ψ
(
x
t
)
)
)
−
γ
E
x
s
∼
P
^
L
(
f
′
(
ψ
(
x
s
)
)
,
f
(
ψ
(
x
s
)
)
)
.
\begin{aligned} \mathcal{E}(\widehat{P}) & =\mathbb{E}_{\left(x^s, y^s\right) \sim \widehat{P}} L\left(f\left(\psi\left(x^s\right)\right), y^s\right) \\ \mathcal{D}(\widehat{P}, \widehat{Q}) & =\mathbb{E}_{x^t \sim \widehat{Q}} L^{\prime}\left(f^{\prime}\left(\psi\left(x^t\right)\right), f\left(\psi\left(x^t\right)\right)\right) \\ & -\gamma \mathbb{E}_{x^s \sim \widehat{P}} L\left(f^{\prime}\left(\psi\left(x^s\right)\right), f\left(\psi\left(x^s\right)\right)\right) . \end{aligned}
E(P
)D(P
,Q
)=E(xs,ys)∼P
L(f(ψ(xs)),ys)=Ext∼Q
L′(f′(ψ(xt)),f(ψ(xt)))−γExs∼P
L(f′(ψ(xs)),f(ψ(xs))).
由于差异损失项在f的参数上不可微,为了简单起见,我们直接训练特征提取器
ψ
\psi
ψ,通过一个梯度反转层( GRL ) ( Ganin & Lempitsky , 2015)最小化差异损失项。
4.2. Combined Cross-Entropy Loss
如前所述,多类间隔损失或铰链损失会导致随机梯度下降中的梯度消失问题,从而无法进行有效的优化,特别是对于明显依赖梯度传播的表示学习。为了克服这个共同的问题,我们在源和目标上选择不同的损失函数,并使用重新称重来近似MDD。
用
σ
\sigma
σ表示softmax函数,即对
z
∈
R
k
\mathbf{z} \in \mathbb{R}^k
z∈Rk
σ
j
(
z
)
=
e
z
j
∑
i
=
1
k
e
z
i
,
for
j
=
1
,
…
,
k
\sigma_j(\mathbf{z})=\frac{e^{z_j}}{\sum_{i=1}^k e^{z_i}}, \text { for } j=1, \ldots, k
σj(z)=∑i=1keziezj, for j=1,…,k
在源域上,将
err
P
^
(
ρ
)
(
f
)
\operatorname{err}_{\widehat{P}}^{(\rho)}(f)
errP
(ρ)(f)和
disp
P
^
(
ρ
)
(
f
′
,
f
)
\operatorname{disp}_{\widehat{P}}^{(\rho)}\left(f^{\prime}, f\right)
dispP
(ρ)(f′,f)替换为标准交叉熵损失
L
(
f
(
ψ
(
x
s
)
)
,
y
s
)
≜
−
log
[
σ
y
s
(
f
(
ψ
(
x
s
)
)
)
]
L
(
f
′
(
ψ
(
x
s
)
)
,
f
(
ψ
(
x
s
)
)
)
≜
−
log
[
σ
h
f
(
ψ
(
x
s
)
)
(
f
′
(
ψ
(
x
s
)
)
)
]
\begin{aligned} L\left(f\left(\psi\left(x^s\right)\right), y^s\right) & \triangleq-\log \left[\sigma_{y^s}\left(f\left(\psi\left(x^s\right)\right)\right)\right] \\ L\left(f^{\prime}\left(\psi\left(x^s\right)\right), f\left(\psi\left(x^s\right)\right)\right) & \triangleq-\log \left[\sigma_{h_f\left(\psi\left(x^s\right)\right)}\left(f^{\prime}\left(\psi\left(x^s\right)\right)\right)\right] \end{aligned}
L(f(ψ(xs)),ys)L(f′(ψ(xs)),f(ψ(xs)))≜−log[σys(f(ψ(xs)))]≜−log[σhf(ψ(xs))(f′(ψ(xs)))]
在目标域上,我们使用了修正的交叉熵损失
L
′
(
f
′
(
ψ
(
x
t
)
)
,
f
(
ψ
(
x
t
)
)
)
≜
log
[
1
−
σ
h
f
(
ψ
(
x
t
)
)
(
f
′
(
ψ
(
x
t
)
)
)
]
L^{\prime}\left(f^{\prime}\left(\psi\left(x^t\right)\right), f\left(\psi\left(x^t\right)\right)\right) \triangleq \log \left[1-\sigma_{h_f\left(\psi\left(x^t\right)\right)}\left(f^{\prime}\left(\psi\left(x^t\right)\right)\right)\right]
L′(f′(ψ(xt)),f(ψ(xt)))≜log[1−σhf(ψ(xt))(f′(ψ(xt)))].
值得注意的是,古德费洛等( 2014 )引入了这种修改,以减轻在执行对抗学习时梯度爆炸或消失的负担。结合上述两项和一个系数
γ
\gamma
γ,辅助分类器
f
′
f^{\prime}
f′的目标可以表示为
max
f
′
γ
E
x
s
∼
P
^
log
[
σ
h
f
(
ψ
(
x
s
)
)
(
f
′
(
ψ
(
x
s
)
)
)
]
+
E
x
t
∼
Q
^
log
[
1
−
σ
h
f
(
ψ
(
x
t
)
)
(
f
′
(
ψ
(
x
t
)
)
)
]
.
\begin{aligned} \max _{f^{\prime}} & \gamma \mathbb{E}_{x^s \sim \widehat{P}} \log \left[\sigma_{h_f\left(\psi\left(x^s\right)\right)}\left(f^{\prime}\left(\psi\left(x^s\right)\right)\right)\right] \\ & +\mathbb{E}_{x^t \sim \widehat{Q}} \log \left[1-\sigma_{h_f\left(\psi\left(x^t\right)\right)}\left(f^{\prime}\left(\psi\left(x^t\right)\right)\right)\right] . \end{aligned}
f′maxγExs∼P
log[σhf(ψ(xs))(f′(ψ(xs)))]+Ext∼Q
log[1−σhf(ψ(xt))(f′(ψ(xt)))].
我们将看到,训练特征提取器
ψ
\psi
ψ以最小化损失函数( 30 )将导致
ψ
(
P
^
)
≈
ψ
(
Q
^
)
\psi(\widehat{P}) \approx \psi(\widehat{Q})
ψ(P
)≈ψ(Q
)。命题4.1。(非正式)假设对
f
′
f^{\prime}
f′ 的选择没有限制,
γ
>
1
\gamma>1
γ>1,损失函数( 30 )的全局最小值为
P
=
Q
P=Q
P=Q,均衡时
σ
h
f
(
f
′
(
⋅
)
)
\sigma_{h_f}\left(f^{\prime}(\cdot)\right)
σhf(f′(⋅)) 的值为
γ
/
(
1
+
γ
)
\gamma /(1+\gamma)
γ/(1+γ),
f
′
f^{\prime}
f′对应的裕度为
log
γ
\log \gamma
logγ。
我们将
γ
=
exp
ρ
\gamma=\exp \rho
γ=expρ作为边际因素,解释见附录(定理D.1和D.2)。一般而言,
γ
\gamma
γ越大,泛化性越好。然而,正如我们在第3节中所解释的,我们不能让它无穷大。事实上,从经验的观点来看,
ρ
\rho
ρ的选择只能远远超过理论最优值,因为对一个大的
γ
\gamma
γ进行SGD可能导致爆炸梯度。总之,γ的选择在我们的方法中是至关重要的,并且在实际应用中,当不遇到爆炸梯度时,我们倾向于选择较大的
γ
\gamma
γ。
见图1。针对算法实现的对抗网络。
5. Experiments
我们在3个数据集上对所提出的学习方法进行了评估,并与先进的深度域适应方法进行了比较。代码可在github . com / thuml / MDD获得。
5.1. Setup
Office-31 ( Saenko等, 2010)是由亚马逊网站的Amazon、网络摄像头的Webcam和数码单反相机的DSLR三个不同领域的标准域适应数据集,包含31个不平衡类别的4652张图像。
Office- Home (文卡特斯瓦拉等, 2017)是一个更复杂的数据集,包含来自4个视觉上非常不同的领域的15500张图像:艺术图像、剪贴画、产品图像和真实世界图像。
VisDA - 2017 ( Peng et al . , 2017)是一个模拟到真实的数据集,它包含两个截然不同的领域:3D模型的合成渲染和从照片或真实图像数据集中收集的真实。在12类280K图像中,VisDA - 2017的规模给域适应带来了挑战。
我们将我们设计的基于边缘差异度( MDD )的算法与当前最先进的域适应方法:深度适应网络( DAN ) ( Long et al , 2015)、域对抗神经网络( DANN ) ( Ganin et al , 2016)、联合适应网络( JAN ) ( Long等, 2017)、对抗判别域适应( ADDA ) ( Tzeng等, 2017)、生成适应( GTA ) ( Sankaranarayanan et al , 2018)、最大分类器差异度( MCD ) ( Saito等, 2018)和条件域对抗网络( CDAN ) ( Long等, 2018)进行比较。
我们遵循Ganin & Lempitsky ( 2015 )的无监督域适应的常用实验方案;Long等( 2018 )。我们报告了五个独立实验的平均准确率。所有实验均采用重要性加权交叉验证( IWCV )进行超参数的选择。系数
η
\eta
η的渐近值固定为0.1,
γ
\gamma
γ从
{
2
,
3
,
4
}
\{2,3,4\}
{2,3,4}中选取,并对同一数据集上的所有任务保持不变。
我们在PyTorch中实现了我们的算法。采用Res Net-50 ( He et al , 2016)作为特征提取器,通过在Image Net ( Russakovsky等, 2014)上预训练的模型进行参数微调。主分类器和辅助分类器均为宽度为1024的2层神经网络。为了优化,我们使用Nesterov动量为0.9的小批量SGD。分类器的学习速率设置为特征提取器的10倍,其值根据Ganin等( 2016 )进行调整。
5.2. Results
在Office - 31上的结果报告在表1中。MDD在6个迁移任务中的5个任务上达到了最先进的精度。值得注意的是,在以前的工作中,特征对齐方法( JAN、CDAN)通常在大到小的任务( A→W , A→D)中表现更好,而像素级自适应方法( GTA )倾向于在小到大的任务( W→A , D→A)中获得更高的准确率。尽管如此,我们的算法在几乎所有任务上都优于这两类方法,显示了其有效性和普适性。表2和表3展示了我们的算法在Office - Home和VisDA - 2017上的准确率,在这里我们取得了显著的性能提升。表中列出的一些方法使用了诸如熵最小化等额外的技术来增强它们的性能。我们的方法具有简单性和性能强度。
5.3. Analyses
在我们的对抗学习算法中,我们合理地使用了组合交叉熵损失,而不是我们理论中的边缘损失和边缘视差差异。需要说明的是,尽管进行了技术上的修改,我们的算法仍然能够很好地减少根据
f
′
f^{\prime}
f′计算的经验MDD:
disp
Q
^
(
ρ
)
(
f
′
,
f
)
−
disp
P
^
(
ρ
)
(
f
′
,
f
)
.
\operatorname{disp}_{\widehat{Q}}^{(\rho)}\left(f^{\prime}, f\right)-\operatorname{disp}_{\widehat{P}}^{(\rho)}\left(f^{\prime}, f\right) .
dispQ
(ρ)(f′,f)−dispP
(ρ)(f′,f).
我们选取
γ
=
1
,
2
,
4
\gamma=1,2,4
γ=1,2,4进行比较。后两种情况下的期望保证金应达到
log
2
\log 2
log2和
log
4
\log 4
log4,而
γ
=
1
\gamma=1
γ=1时的保证金没有保证。相应地,我们考察了任务D→A的DD (基于0 - 1损失)、
log
2
−
M
D
D
\log 2-\mathrm{MDD}
log2−MDD和
log
4
−
\log 4-
log4− MDD ,结果如图2 - 3所示。
首先,我们证明了在没有对抗训练的最小化部分的情况下,公式中的辅助分类器
f
′
f^{\prime}
f′。接近于使得
F
\mathcal{F}
F上MDD最大的
f
′
f^{\prime}
f′ .我们通过直接使用辅助分类器进行训练来解决这个优化问题,并在3(a)中展示了我们的结果,其中MDD在训练开始后不久就达到了1,这表明我们使用的损失函数可以很好地替代MDD。
接下来,我们考虑极小极大优化问题的平衡点。图2(b)和图2©给出了
σ
h
f
∘
f
′
\sigma_{h_f} \circ f^{\prime}
σhf∘f′的平均值。可以看出,在最后的训练阶段,
σ
h
ρ
∘
f
′
\sigma_{h_\rho} \circ f^{\prime}
σhρ∘f′与目标上的预测值
γ
/
(
1
+
γ
)
\gamma /(1+\gamma)
γ/(1+γ)( 4.1节)接近,具有较大的裕度。
最后,通过可视化整个数据集每100步计算的DD、
log
2
−
M
D
D
\log 2-\mathrm{MDD}
log2−MDD 和
log
4
−
\log 4-
log4− MDD值以及测试精度,可以看出较大的
γ
\gamma
γ 会导致较小的MDD和较高的测试精度。尽管梯度饱和存在困难,使用原始MDD损失的结果也具有可比性,如附录(见表E.1)所示。
见表1。非监督域适应( Res Net-50 )在Office - 31上的准确率( % )。
表2 .准确率( % )在Office - Home上进行无监督域适应( ResNet-50 )。
表3 . Visda-2017 ( Resnet-50 )上的准确率( % )。
表4 .不同切缘在Office - 31上的准确率( % )。
见图2。在迁移任务D→A上测试
σ
h
f
∘
f
′
\sigma_{h_f} \circ f^{\prime}
σhf∘f′的准确性和经验值,其中虚线表示
γ
/
(
1
+
γ
)
\gamma /(1+\gamma)
γ/(1+γ)。
见图3。通过辅助分类器
f
′
f^{\prime}
f′计算边缘视差差异( MDD )的经验值。
6. Related Work
领域适应理论。该领域开创性的理论工作之一是Ben - David等( 2007 )。他们提出了
H
Δ
H
\mathcal{H} \Delta \mathcal{H}
HΔH-散度作为传统分布差异(如总变异、KL散度)的替代,克服了有限样本估计的困难。Mansour等( 2009c )考虑了一类满足对称性和次可加性的一般损失函数,发展了关于新提出的差异距离的推广理论。Kuroki等( 2019 )在此背景下做了并行工作,他们引入了一个易于处理的、更精细的
H
Δ
H
\mathcal{H} \Delta \mathcal{H}
HΔH散度对应物,称为S - disc,使用理想源分类器和与( Mansour et al , 2009c)类似的损失函数计算。事实上,这种测量作为一个特例包含在我们的DD中。Mohri & Medina ( 2012 );Zhang et al . ( 2012 )提出了Y - disc用于部分标记目标数据的领域适应。Cortes & Mohri ( 2014 );Cortes et al . ( 2015 )进一步通过广义差异提出了领域适应设置中的回归任务理论。关于领域适应的另一类理论工作强调不同分布的假设。张杰等( 2013 );Gong等( 2016 )从因果的角度解决了这一问题,并提出了广义目标偏移( Generalized Target Shift,GeTarS )情景来代替传统的协变量偏移假设。赫尔马因等人( 2013 )利用领域不一致伪[准]度量的提出了领域适应的PAC - Bayesian理论。
域适应算法。 近年来,基于深度网络的域适应方法取得了巨大的成功。这些工作旨在通过最小化由共享表示学习器提取的源和目标特征的分布之间的一定差异来学习领域不变的表示。Ganin & Lempitsky ( 2015 )结合Ben - David等人( 2010 )的理论和对抗学习(古德费洛等, 2014)的实践,提出了领域对抗神经网络( DANN )。训练一个域判别器来区分源特征和目标特征,训练一个特征提取器来混淆判别器。此后,一系列作品相继出现并取得了明显较好的表现。Tzeng等( 2017 )提出了一种对目标和源数据采用非对称编码的架构。Long等( 2018 )提出了一个利用条件信息进行对抗适应模型的原则性框架。Hoffman等( 2018b );Sankaranarayanan等人( 2018 )将像素级和特征级对抗学习统一用于域适应。Saito等( 2018 )考虑了分类器而不是特征,通过最大化分类器差异度设计了一种原始的对抗学习方法。
7. Conclusion
在本文中,我们基于新提出的边界视差差异推导了新的泛化边界,并给出了域适应的理论和算法分析。我们的分析对于分析现实世界的领域自适应问题更具有一般性,精心设计的理论推导算法达到了目前最好的结果。