文章目录
1 要点
1.1 概述
背景:多示例学习 (MIL) 方法通常训练一个实例级特征提取器,并将其汇聚为包级别表示。然后,包级别表示的学习高度依赖于有标签数据的数量,这在实际应用中是很困难的。
方法:本文提出SMILES来学习无监督包表示,其有以下特性:
- 序列不变性,其不受实例顺序的影响;
- 结构感知,对实例之间的拓扑结构进行编码;
- 对实例噪声或者扰动具有健壮性。
具体地,为了在没有包标签信息的情况下获取MIL模型:
- 增强MIL包,训练表示编码器并最大化包在不同增强形式下表示的一致性;
- 为了捕获包中相邻的拓扑结构,算法将学习包的最优图结构,且这些图将与信息传递层、有序加权平均运算一起,共同优化对比损失。
1.2 代码
1.3 引用
@inproceedings{Wang:2023:1021810225,
author = {Ye Jiang Wang and Yu Hai Zhao and Zheng Kui Wang and Mei Xia Wang},
title = {Robust self-supervised multi-instance learning with structure awareness},
booktitle = {{AAAI}},
pages = {10218--10225},
year = {2023},
url = {https://ojs.aaai.org/index.php/AAAI/article/view/26217/25989}
}
2 基础知识
2.1 MIL
令
X
⊂
R
d
in
\mathcal{X}\sub\mathbb{R}^{d_\text{in}}
X⊂Rdin表示实例空间,
Ω
\Omega
Ω是标签
y
y
y的集合。在MIL中,标签被设置为两类,即
Ω
=
{
⊤
,
⊥
}
\Omega=\{ \top, \bot\}
Ω={⊤,⊥}。MIL中的映射关系为
v
m
i
:
2
X
→
Ω
v_{mi}:2^\mathcal{X}\to\Omega
vmi:2X→Ω:
v
m
i
(
X
)
⇔
∃
x
∈
X
:
c
(
X
)
(1)
\tag{1} v_{mi}(X)\Leftrightarrow\exists x\in X:c(X)
vmi(X)⇔∃x∈X:c(X)(1)其中
c
∈
C
c\in\mathcal{C}
c∈C是概念空间
C
\mathcal{C}
C中的一个概念,MIL数据集则表示为
D
=
{
X
,
y
}
\mathbb{D}=\{ X,y \}
D={X,y}
本文致力于在无监督情形下研究MIL,而自监督学习 (SSL) 便是一种在大量未标记数据下训练的一种学习范式。结合SSL的MIL可表示为 f r e p : 2 X → R d out f_{rep}:2^\mathcal{X}\to\mathbb{R}^{d_\text{out}} frep:2X→Rdout,其将包 X X X转换到 d out d_\text{out} dout维实例空间中而无需标签,即 f rep ( X ) = ( a 1 , … , a d o u t ) f_\text{rep}(X)=(a_1,\dots,a_{d_{out}}) frep(X)=(a1,…,adout)。
2.2 MIL噪声
本文研究一个训练扰动的集合
U
p
(
Λ
)
=
{
δ
∈
R
d
in
:
∥
δ
∥
p
≤
Λ
}
\mathfrak{U}_p(\Lambda)=\{ \delta\in\mathbb{R}^{d_\text{in}}:\| \delta \|_p \leq \Lambda \}
Up(Λ)={δ∈Rdin:∥δ∥p≤Λ},其中
δ
\delta
δ表示度量误差、
p
p
p是
ℓ
p
\ell_p
ℓp范数,以及
Λ
\Lambda
Λ用于控制扰动的量级。形式上,噪声的生成属于黑盒反馈机制,当输入实例
x
x
x,返回一个随机向量
g
(
x
;
δ
)
g(x;\delta)
g(x;δ),其中
δ
\delta
δ从概率空间
(
U
p
(
Λ
)
,
F
,
P
)
(\mathfrak{U}_p(\Lambda),\mathcal{F},\mathbb{P})
(Up(Λ),F,P)获得,且与
x
x
x的值独立。因此,oracle抽取一个IID样本
δ
∈
U
p
(
Λ
)
\delta\in\mathfrak{U}_p(\Lambda)
δ∈Up(Λ)并返回一个观测实例
g
(
x
;
δ
)
=
x
+
δ
g(x;\delta)=x+\delta
g(x;δ)=x+δ。在监督环境中,防御此类噪声的最简单、最直接的方法是最大限度地减少测量误差实例的损失:
arg min
θ
E
(
X
,
y
)
∼
D
,
δ
∈
U
p
(
Λ
)
L
c
e
(
θ
,
{
g
(
x
;
δ
∣
x
∈
X
)
}
,
y
)
(2)
\tag{2} \argmin_\theta\mathbb{E}_{(X,y)\sim\mathbb{D,\delta\in\mathfrak{U}_p(\Lambda)}}\mathcal{L}_{ce}(\theta,\{ g(x;\delta|x\in X) \},y)
θargminE(X,y)∼D,δ∈Up(Λ)Lce(θ,{g(x;δ∣x∈X)},y)(2)其中
L
c
e
\mathcal{L}_{ce}
Lce是交叉熵损失,
θ
\theta
θ是参数。
2.3 MIL结构
MIL结构学习的目标是同时学习图结构和表示以提升MIL模型的表达能力。令 G = ( V , E , X ′ ) G=(V,\mathcal{E},X') G=(V,E,X′)表示一个关于 X X X的无向图,其中 V = { v 1 , … , v n } V=\{ v_1,\dots, v_n \} V={v1,…,vn}是顶点的集合,每一个顶点 v i v_i vi对应一个 d ′ d' d′维向量 x i ′ ∈ X ′ x_i'\in X' xi′∈X′, E \mathcal{E} E是相似性矩阵,其元素 e i , j e_{i,j} ei,j表示边的权重。另一种方式是将图视作2阶张量: G ∈ ( F n , F n 2 ) G\in(\mathbb{F}^n,\mathbb{F}^{n^2}) G∈(Fn,Fn2),其中 F \mathbb{F} F表示 R q \mathbb{R}^q Rq形式的任意有限维空间 (对于不同的 q q q值),通常表示特征空间。故有 X ′ ∈ F n X'\in\mathbb{F}^n X′∈Fn, E ∈ F n 2 \mathcal{E}\in\mathbb{F}^{n^2} E∈Fn2。
MIL结构学习学习一个映射 f s l : 2 X → ( F n , F n 2 ) f_{sl}:2^\mathcal{X}\to(\mathbb{F}^n,\mathbb{F}^{n^2}) fsl:2X→(Fn,Fn2),其将输入空间映射到图空间。直观上,如果 x i x_i xi和 x j x_j xj在 X X X中是最近邻,它们相应的顶点也更近。
2.4 序列不变
对于MIL包,一个实例序列动作 π ∈ S B \pi\in\mathbb{S}_\mathcal{B} π∈SB是左动作 ϕ : S B × 2 X → 2 X \phi:\mathbb{S}_\mathcal{B}\times2^\mathcal{X}\to2^\mathcal{X} ϕ:SB×2X→2X,其中 n n n个实例的排序序列上的元素 π \pi π表示为包 X = ( x 1 , … , x n ) X = (x_1,\dots, x_n) X=(x1,…,xn),以输出相应的实例序列,即 ϕ ( π , X ) = ( x π ( 1 ) , … , x π ( n ) ) \phi(\pi,X)=(x_{\pi(1)},\dots,x_{\pi(n)}) ϕ(π,X)=(xπ(1),…,xπ(n))。对于所有的 π ∈ S B \pi\in S_\mathcal{B} π∈SB和 X ∈ 2 X X\in2^\mathcal{X} X∈2X,如果映射 f : 2 X → R d o u t f:2^\mathcal{X}\to\mathbb{R}^{d_{out}} f:2X→Rdout满足 f ∘ ϕ ( π , X ) = f ( X ) f\circ\phi(\pi,X)=f(X) f∘ϕ(π,X)=f(X),则称为序列不变。对于从包生成的图,顶点的序列行为 π ∈ S G \pi\in\mathbb{S}_\mathcal{G} π∈SG被定义为 ϕ : S G × V → V \phi:\mathbb{S}_\mathcal{G}\times V\to V ϕ:SG×V→V,且 ϕ ( π , V ) = ( v π ( 1 ) , … , v π ( n ) ) \phi(\pi,V)=(v_{\pi(1)},\dots,v_{\pi(n)}) ϕ(π,V)=(vπ(1),…,vπ(n))。序列动作 π ∈ S G \pi\in\mathbb{S}_\mathcal{G} π∈SG也作用于在节点 V V V上定义的任何向量,即 ( x i ∈ F n ) (x_i\in\mathbb{F}^n) (xi∈Fn),并输出具有节点顺序的等长向量 ( x π i ) ∈ F n (x_{\pi_i})\in\mathbb{F}^n (xπi)∈Fn。函数 f f f在图 G G G上的动作定义为 f : ( F n , F n 2 ) → R d o u t f:(\mathbb{F}^n,\mathbb{F}^{n^2})\to\mathbb{R}^{d_{out}} f:(Fn,Fn2)→Rdout。如果它对 ( F n , F n 2 ) (\mathbb{F}^n,\mathbb{F}^{n^2}) (Fn,Fn2)图空间中的任何顶点序列操作 π ∈ S G \pi\in\mathbb{S}_\mathcal{G} π∈SG不变时,则其是 G \mathcal{G} G不变的。
3 方法
3.1 包增强
在MIL中引入归纳偏差的方法之一是数据增强,我们将在数据使用它,其是算法稳健学习的关键。令
A
:
2
X
→
2
X
\mathcal{A}:2^\mathcal{X}\to2^\mathcal{X}
A:2X→2X表示增强函数,
F
r
e
p
\mathcal{F}_{rep}
Frep为表示编码器。对于
f
a
∈
A
f_a\in\mathcal{A}
fa∈A和
X
X
X,定义:
f
a
(
X
)
=
{
x
~
∣
x
~
=
g
(
x
;
δ
)
,
x
∈
X
,
δ
∈
U
p
(
Λ
)
}
(3)
\tag{3} f_a(X)=\left\{ \tilde{x} \big|\tilde{x} = g(x;\delta),x\in X,\delta\in\mathfrak{U}_p(\Lambda) \right\}
fa(X)={x~
x~=g(x;δ),x∈X,δ∈Up(Λ)}(3)假设
f
∈
F
r
e
p
f\in\mathcal{F}_{rep}
f∈Frep满足
f
(
f
a
(
X
)
)
=
f
(
X
)
f(f_a(X))=f(X)
f(fa(X))=f(X)。噪声扰动可以提供不同量级下的对比信息,以使得编码器学习多个表示。因此,遵循公式2的监督,针对实例扰动的自监督抗噪声监督学习的目标是:
arg min
θ
E
(
X
)
∼
D
L
θ
(
X
,
{
f
a
(
X
)
}
,
{
X
−
}
)
(4)
\tag{4} \argmin_\theta\mathbb{E}_{(X)\sim\mathbb{D}}\mathcal{L}_\theta(X,\{ f_a(X) \}, \{ X^- \})
θargminE(X)∼DLθ(X,{fa(X)},{X−})(4)其中
{
X
−
}
\{ X^- \}
{X−}是负包,其是其它实例组成的包。对比损失
L
θ
\mathcal{L}_\theta
Lθ定义为:
L
θ
(
X
,
{
X
+
}
,
{
X
−
}
)
:
=
−
log
∑
{
z
+
}
exp
(
cos
(
z
,
z
+
)
/
τ
)
∑
{
z
+
,
z
−
}
exp
(
cos
(
z
,
z
∘
)
/
τ
)
(5)
\tag{5} \mathcal{L}_\theta(X,\{ X^+ \}, \{ X^- \}):= -\log\frac{\sum_{\{ z^+ \}}\exp(\cos(z,z^+)/\tau)}{\sum_{\{ z^+,z^- \}}\exp(\cos(z,z^\circ)/\tau)}
Lθ(X,{X+},{X−}):=−log∑{z+,z−}exp(cos(z,z∘)/τ)∑{z+}exp(cos(z,z+)/τ)(5)其中
τ
\tau
τ是温度、
cos
(
⋅
,
⋅
)
\cos(\cdot,\cdot)
cos(⋅,⋅)是余弦相似度,
z
,
{
z
+
}
,
{
z
−
}
z,\{z^+\},\{z^-\}
z,{z+},{z−}分别表示通过表示编码器获得的潜向量。
3.2 包结构感知
有效图拓扑的构造在MIL数据的高效表示与分析中至关重要。然而,图的自然选择不容易从包中获得,因此需要从包中的实例推断或学习图拓扑。
我们生成用于判断两个节点边可能性的相似性矩阵
E
∈
F
n
2
\mathcal{E}\in\mathbb{F}^{n^2}
E∈Fn2。对于节点
v
i
v_i
vi及其特征向量
x
i
∈
X
x_i\in X
xi∈X,我们使用一个非线性特征映射层
f
n
l
:
R
d
in
→
F
f_{nl}:\mathbb{R}^{d_\text{in}}\to\mathbb{F}
fnl:Rdin→F将器特征投影为一个
d
′
d'
d′维潜在特征:
x
i
′
=
f
n
l
(
x
i
)
:
=
σ
(
x
i
⋅
W
n
l
+
b
n
l
)
(6)
\tag{6} x_i'=f_{nl}(x_i):=\sigma(x_i\cdot W_{nl}+b_{nl})
xi′=fnl(xi):=σ(xi⋅Wnl+bnl)(6)其中
σ
\sigma
σ表示非线性激活函数。然后,在潜在特征上执行度量学习,获取特征相似性图
E
∈
F
n
2
\mathcal{E}\in\mathbb{F}^{n^2}
E∈Fn2,其中节点
v
i
v_i
vi和
v
j
v_j
vj之间的边计算为:
E
[
i
,
j
]
=
s
(
x
i
′
,
x
j
′
)
×
⟦
s
(
x
i
′
,
x
j
′
≫
ϵ
)
⟧
(7)
\tag{7} \mathcal{E}[i,j]=s(x_i',x_j')\times\llbracket s(x_i',x_j'\gg \epsilon)\rrbracket
E[i,j]=s(xi′,xj′)×[[s(xi′,xj′≫ϵ)]](7)其中
⟦
⋅
⟧
\llbracket \cdot \rrbracket
[[⋅]]是一个指示函数,当条件满足时其值为1否则为0。
ϵ
∈
[
0
,
1
]
\epsilon\in[0,1]
ϵ∈[0,1]是一个用于控制特征相似图的阈值函数,其值越大,矩阵越稀疏。
s
s
s是一个
K
K
K头加权余弦相似性函数:
s
(
x
i
′
,
x
j
′
)
=
1
K
∑
k
K
cos
(
w
k
⊙
x
i
′
,
w
k
⊙
x
j
′
)
s(x_i',x_j')=\frac{1}{K}\sum_k^K\cos(w_k\odot x_i',w_k\odot x_j')
s(xi′,xj′)=K1k∑Kcos(wk⊙xi′,wk⊙xj′)其中
⊙
\odot
⊙表示按元素乘积,以及
W
k
h
=
[
w
k
]
W_{kh}=[w_k]
Wkh=[wk]是一个可学习参数,用以衡量特征向量每个维度的重要性。基于此,可以获得候选特征相似性图
(
X
′
,
E
)
=
f
s
l
(
X
)
(X',\mathcal{E})=f_{sl}(X)
(X′,E)=fsl(X)。
3.3 包表示
给定一个图
G
=
(
V
,
E
,
X
′
)
G=(V,\mathcal{E},X')
G=(V,E,X′),需要习得每个顶点
v
∈
V
v\in V
v∈V的顶点表示。本文使用一个在生成图上的信息传递框架来保留领域节点之间的邻接信息。令
h
i
ℓ
∈
F
ℓ
h_i^\ell\in\mathbb{F}_\ell
hiℓ∈Fℓ表示节点
i
i
i在层
ℓ
\ell
ℓ的特征,更新后的特征计算为
h
i
ℓ
+
1
=
f
u
p
d
(
h
i
ℓ
,
{
{
h
j
ℓ
∣
j
∈
N
i
}
}
)
h_i^{\ell+1}=f_{upd}(h_i^\ell,\{\{ h_j^\ell | j\in\mathcal{N}_i \}\})
hiℓ+1=fupd(hiℓ,{{hjℓ∣j∈Ni}}),其中
j
∈
N
i
j\in\mathcal{N}_i
j∈Ni表示节点
i
i
i和
j
j
j是邻居,
f
u
p
d
:
2
F
ℓ
→
F
ℓ
+
1
f_{upd}:2^{\mathbb{F}_\ell}\to\mathbb{F}_{\ell+1}
fupd:2Fℓ→Fℓ+1是一个线性函数,其可以近似为:
h
i
ℓ
+
1
=
σ
(
W
ℓ
⋅
(
h
i
ℓ
⊗
f
ℓ
(
h
i
ℓ
,
{
{
h
j
ℓ
∣
j
∈
N
i
}
}
)
)
)
(9)
\tag{9} h_i^{\ell+1}=\sigma\left( W^\ell \cdot \left( h_i^\ell \otimes f^\ell (h_i^\ell,\{\{ h_j^\ell | j\in\mathcal{N}_i \}\}) \right)\right)
hiℓ+1=σ(Wℓ⋅(hiℓ⊗fℓ(hiℓ,{{hjℓ∣j∈Ni}})))(9)其中
f
ℓ
:
2
F
ℓ
→
F
ℓ
+
1
f^\ell:2^{\mathbb{F}_\ell}\to\mathbb{F}_{\ell+1}
fℓ:2Fℓ→Fℓ+1是一个单射集函数、
⊗
\otimes
⊗是向量拼接,以及
σ
\sigma
σ是按元素激活函数。由此,第
l
l
l信息传递层为:
f
m
p
ℓ
:
F
ℓ
→
F
ℓ
+
1
f_{mp}^\ell:\mathbb{F}_\ell\to\mathbb{F}_{\ell+1}
fmpℓ:Fℓ→Fℓ+1。通过
f
m
p
ℓ
f_{mp}^\ell
fmpℓ的信息传递,获得每个实例的新表示
x
i
′
′
=
f
m
p
L
∘
…
f
m
p
2
∘
f
m
p
1
(
x
i
′
)
(10)
\tag{10} x_i''=f_{mp}^L\circ\dots f_{mp}^2\circ f_{mp}^1(x_i')
xi′′=fmpL∘…fmp2∘fmp1(xi′)(10)
定理1 (节点表示). 对于一个节点–特征图
G
=
(
V
,
X
′
,
E
)
∈
F
n
×
F
n
2
G=(V,X',\mathcal{E})\in\mathbb{F}^n\times\mathbb{F}^{n^2}
G=(V,X′,E)∈Fn×Fn2和一个顶点表示函数
ψ
(
v
,
V
,
E
,
X
′
)
:
V
×
(
F
n
×
F
n
2
)
→
R
d
out
\psi(v,V,\mathcal{E},X'):V\times(\mathbb{F}^n\times\mathbb{F}^{n^2})\to\mathbb{R}^{d_\text{out}}
ψ(v,V,E,X′):V×(Fn×Fn2)→Rdout。然而对于所有的序列行为
∀
π
∈
S
G
\forall\pi\in\mathbb{S}_\mathcal{G}
∀π∈SG,有
ψ
(
v
,
V
,
E
,
X
′
)
=
ψ
(
ϕ
(
π
,
v
)
,
ϕ
(
π
,
V
)
,
E
,
ϕ
(
π
,
X
′
)
)
\psi(v,V,\mathcal{E},X')=\psi(\phi(\pi,v),\phi(\pi,V),\mathcal{E},\phi(\pi,X'))
ψ(v,V,E,X′)=ψ(ϕ(π,v),ϕ(π,V),E,ϕ(π,X′))这表明映射
ψ
\psi
ψ对于任意节点是
G
\mathcal{G}
G不变的。
以上过程生成的仅是实例表示,需要一个汇聚操作来获得包表示。本文使用有序加权平均 (OWA) 操作
f
o
w
a
:
F
n
+
1
n
→
R
d
out
f_{owa}:\mathbb{F}_{n+1}^n\to\mathbb{R}^{d_\text{out}}
fowa:Fn+1n→Rdout:
z
=
f
o
w
a
(
{
x
i
′
′
∣
i
∈
[
n
]
;
ζ
}
)
=
∑
i
=
1
n
ζ
i
x
(
i
)
′
′
z=f_{owa}(\{ x_i''|i\in[n];\boldsymbol{\zeta} \})=\sum_{i=1}^n\zeta_ix_{(i)}''
z=fowa({xi′′∣i∈[n];ζ})=i=1∑nζix(i)′′其中
x
(
i
)
′
′
x_{(i)}''
x(i)′′是
{
x
i
′
′
}
\{ x_i'' \}
{xi′′}中第
i
i
i大的元素。在本文中,所有的
ζ
i
=
1
/
n
\zeta_i=1/n
ζi=1/n。
4 实验
4.1 数据集
- Benchmark;
- Newsgroups
- Biocreative。
4.2 参数设置
- 信息传递层层数: { 2 , 4 , 8 , 12 } \{2,4,8,12\} {2,4,8,12};
- 训练轮次: { 10 , 20 , 40 , 100 } \{10,20,40,100\} {10,20,40,100};
- 批次: { 32 , 64 , 128 , 256 } \{ 32,64,128,256 \} {32,64,128,256};
- SVM的参数 C C C: { 1 0 − 3 , … , 1 0 2 , 1 0 3 } \{ 10^{-3},\dots,10^2,10^3 \} {10−3,…,102,103};
- 阈值 ϵ \epsilon ϵ: { 0.1 , … , 0.5 } \{0.1,\dots,0.5\} {0.1,…,0.5};
- 增强比例 c c c: { 10 % , 20 % } \{10\%,20\%\} {10%,20%};
- 温度 τ \tau τ: { 0.05 , 0.1 , 0.2 , 0.5 , 1.0 , 2.0 } \{ 0.05,0.1,0.2,0.5,1.0,2.0 \} {0.05,0.1,0.2,0.5,1.0,2.0};
- 隐藏层维度: 128 128 128;
- 增强策略:丢弃、蒙版、替换、随机实例。