paper list
- A DIRT-T Approach to Unsupervised Domain Adaptation
Main Idea
这篇文章针对之前的domain adversarial learning的方法进行了批判,并通过引入聚类假设和Mean Teacher-liked的self-ensembling方法解决对抗机制的缺点,以至于可以获得更好的泛化分类性能。
本文一共提出了两个模型:
- VADA Virtual Adversarial Domain Adaptation model
- DIRT-T Decision-boundary Iterative Refinement Training with a Teacher
其实严格意义上第二个模型是在VADA的基础上的一个改进方法,并不是一个独立的模型。
Domain Adversarial的缺点
这篇文章提出之前的对抗学习的方式有两个缺点:
- 当特征提取器的能力过于强大,即输出的特征拟合能力很强的时候,强行将特征进行匹配是一个很弱的约束规则。如果一个特征提取器的输出特征是high-capacity的,那么理论上它可以将从target提取的特征直接拟合到source的特征分布上。问题是这样的拟合不会提升在target上的分类准确率。
- 在non-conservative domain adaptation情况下(单个分类器无法同时在source和target上获得最好的分类效果),如果训练一个在source上表现太好,整个模型向source的方向偏移,势必会影响在target上的分类正确率。(中庸的思想,过犹不及)
VADA
这个模型相比于传统的DANN的对抗结构加入了聚类假设相关的惩罚项。聚类假设是对于网络的输入(image)分布是满足聚类算法的假设,即分类器边界不会穿过分布的高密度区域。所以提出了两个相关的惩罚项,一个是在输出特征上加入最小熵约束,让不同类别的特征尽可能的分离开,远离分类器的决策边界。二是计算输出特征和其轻微扰动的KL散度,在每个样本x的法向球邻域内强制分类器一致性。所以总的损失函数:
min
θ
.
L
y
(
θ
;
D
s
)
+
λ
d
L
d
(
θ
;
D
s
,
D
t
)
+
λ
s
L
v
(
θ
;
D
s
)
+
λ
t
[
L
v
(
θ
;
D
t
)
+
L
c
(
θ
;
D
t
)
]
\min\limits_{\theta}.L_{y}(\theta;D_{s}) + \lambda_{d}L_{d}(\theta;D_{s}, D_{t})+\lambda_{s}L_{v}(\theta;D_{s})+\lambda_{t}[L_{v}(\theta;D_{t}) + L_{c}(\theta;D_{t})]
θmin.Ly(θ;Ds)+λdLd(θ;Ds,Dt)+λsLv(θ;Ds)+λt[Lv(θ;Dt)+Lc(θ;Dt)]
其中每一部分的具体表示:
L
t
(
θ
)
=
L
v
(
θ
;
D
t
)
+
L
c
(
θ
;
D
t
)
L_{t}(\theta )=L_{v}(\theta;D_{t}) + L_{c}(\theta;D_{t})
Lt(θ)=Lv(θ;Dt)+Lc(θ;Dt)
L
v
(
θ
;
D
)
=
E
x
∼
D
[
max
∥
r
∥
≤
ε
D
K
L
(
h
θ
(
x
+
r
)
)
]
L_{v}(\theta;D)=E_{x\sim D}\left [ \max \limits_{\left \| r \right \| \leq\varepsilon}D_{KL}(h_{\theta}(x+r)) \right ]
Lv(θ;D)=Ex∼D[∥r∥≤εmaxDKL(hθ(x+r))]
L
c
(
θ
;
D
t
)
=
−
E
x
∼
D
t
[
h
θ
(
x
)
⊤
ln
h
θ
(
x
)
]
L_{c}(\theta;D_{t}) = - E_{x\sim D_{t}}[h_{\theta}(x)^{\top}\ln h_{\theta}(x)]
Lc(θ;Dt)=−Ex∼Dt[hθ(x)⊤lnhθ(x)]
总体的模型结构图:
DIRT-T
在一个训练好的VADA网络的基础上,这篇文章设计了一个新的增强方法去提高性能。这个方法只使用target的数据,借鉴了Mean Teacher方法的思想,继续深入贯彻落实聚类假设,即加大聚类中心之间的距离,让数据分布远离分类边界。
这里的DIRT-T方法更像一个two-stages训练方法的第二个stage,这个阶段的损失函数:
min
θ
n
.
λ
t
L
t
(
θ
n
)
+
β
t
E
[
D
K
L
(
h
θ
n
−
1
(
x
)
∥
h
θ
n
(
x
)
)
]
\min\limits_{\theta_{n}}.\lambda_{t}L_{t}(\theta_{n})+\beta_{t}\mathbb{E}[D_{KL}(h_{\theta_{n-1}}(x)\parallel h_{\theta_{n}}(x))]
θnmin.λtLt(θn)+βtE[DKL(hθn−1(x)∥hθn(x))]
最后文章进行了一些测试和Ablation Study,证明了VADA加入的virtual adversarial training部分和DIRT-T增强方法的两个部分都是有效的,但是实验测试的数据集没有大规模数据集,有待进一步的测试。