1 要点
1.1 概述
背景:在现实任务中,所关注的对象可以被表示为对应一个候选标签集的多示例包,其包含一个真实标签和多个虚假正标签。用于处于该问题的学习范式被称为多示例偏标签学习 (MIPL)。
问题:已有方法通过增强候选标签集和从实例标签获得包标签,这样的实例空间范式忽略了全局包信息,且预测的包标签易受负实例预测的影响。
方法:本文提出一种替换策略—消歧注意力嵌入方法 (DEMIPL),其简要说明如图1:
- 基于动力的消歧策略:从候选标签集中识别真实标签;
- 消歧注意力机制:将包嵌入为单向量。
1.2 代码
暂无。
1.3 步骤
- 特征提取;
- 注意力机制:将包转换为向量,且添加消歧注意力来使得正实例的得分显著高于负实例;
- 分类:获取预测概率,后面与候选标签算损失,其中引入基于动量的消歧策略,以更好地从候选标签集中选择出真实标签。
1.4 引用
@article{Tang:2023:131:arxiv,
author = {Wei Tang and Wei Jia Zhang and Min-Ling Zhang},
title = {Disambiguated attention embedding for multi-instance partial-label learning},
journal = {arXiv},
year = {2023},
pages = {1--31}
}
2 方法
2.1 符号和DEMIPL框架
令 X = R d \mathcal{X}=\mathbb{R}^d X=Rd表示示例空间, Y = { l 1 , l 2 , … , l k } \mathcal{Y}=\{ l_1,l_2,\dots,l_k \} Y={l1,l2,…,lk}表示包含 k k k类标签的标签空间。MIPL的目标是开发一个分类器 f : 2 X → Y f:2^\mathcal{X}\to\mathcal{Y} f:2X→Y。 D = { X i , S i ∣ 1 ≤ i ≤ m } \mathcal{D}=\{ \boldsymbol{X}_i, \boldsymbol{S}_i | 1\leq i \leq m \} D={Xi,Si∣1≤i≤m}是包含 m m m个包和候选标签集的训练集。特别地, ( X i , S i ) (\boldsymbol{X}_i, \boldsymbol{S}_i) (Xi,Si)表示第 i i i个MIML样本,其中 X i = { x i , 1 , x i , 2 , … , x i , n i } \boldsymbol{X}_i = \{ \boldsymbol{x}_{i,1}, \boldsymbol{x}_{i,2},\dots,\boldsymbol{x}_{i,n_i}\} Xi={xi,1,xi,2,…,xi,ni}表示包含 n i n_i ni个实例的包,每个实例 x i , j ∈ X \boldsymbol{x}_{i,j}\in\mathcal{X} xi,j∈X。 S i ⊆ Y \boldsymbol{S}_i\subseteq\mathcal{Y} Si⊆Y是包含真实标签 Y i ∈ S i Y_i\in\boldsymbol{S}_i Yi∈Si的候选标签集。注意在训练阶段具体的真实标签是未知的。假设潜在的实例标签为 y i = { y i , 1 , y i , 2 , … , y i , n i } \boldsymbol{y}_i=\{ y_{i,1},y_{i,2},\dots,y_{i,n_i} \} yi={yi,1,yi,2,…,yi,ni},则 ∃ y i , j = Y i \exists y_{i,j}=Y_i ∃yi,j=Yi且 ∀ y i , j ∉ Y ∖ { Y i } \forall y_{i,j}\notin\mathcal{Y}\setminus\{ Y_i \} ∀yi,j∈/Y∖{Yi}。在MIPL中,如果一个实例的标签中包含真实标签,则其为正实例,否则为负实例。此外,负实例的类别标签不属于标签空间。
图2展示了DEMIPL的框架,其主要包含三个步骤:
- 特征提取:生成实例级特征 H i \boldsymbol{H}_i Hi;
- 消歧注意力机制:整合 H i \boldsymbol{H}_i Hi为单特征向量 z i \boldsymbol{z}_i zi;
- 分类:输出包的分类置信度
P
i
\boldsymbol{P}_i
Pi。
为了提升分类性能,引入两个训练损失:注意力损失 L a \mathcal{L}_a La和基于动量的消歧损失 L m \mathcal{L}_m Lm。
2.2 消歧注意力机制
首先提取实例级特征信息:
H
i
=
h
(
X
i
)
=
{
h
i
,
1
,
h
i
,
2
,
…
,
h
i
,
n
i
}
,
(1)
\tag{1} \boldsymbol{H}_i=h(\boldsymbol{X}_i)=\{ \boldsymbol{h}_{i,1}, \boldsymbol{h}_{i,2},\dots,\boldsymbol{h}_{i,n_i}\},
Hi=h(Xi)={hi,1,hi,2,…,hi,ni},(1)其中
h
i
,
j
=
h
(
x
i
,
j
)
∈
R
d
′
\boldsymbol{h}_{i,j}=h(\boldsymbol{x}_{i,j})\in\mathbb{R}^{d'}
hi,j=h(xi,j)∈Rd′是第
j
j
j个实例的特征。对于MIPL,我们使用多类别注意力机制:
- 计算每个实例到所有类别的相关型;
- 通过可学习线性模型将相关性转化为每个实例对包级特征的贡献。
综上,实例 x i , j \boldsymbol{x}_{i,j} xi,j的注意力分数可以计算为:
a i , j = 1 1 + exp { − W ⊤ ( tanh ( W v ⊤ h i , j + b v ) ⊙ sigm ( W u ⊤ h i , j + b u ) ) } , (2) \tag{2} a_{i,j}=\frac{1}{1+\exp\{ -\boldsymbol{W}^\top(\tanh(\boldsymbol{W}_v^\top\boldsymbol{h}_{i,j}+\boldsymbol{b}_v)\odot\text{sigm}(\boldsymbol{W}_u^\top\boldsymbol{h}_{i,j}+\boldsymbol{b}_u)) \}}, ai,j=1+exp{−W⊤(tanh(Wv⊤hi,j+bv)⊙sigm(Wu⊤hi,j+bu))}1,(2)其中 W ⊤ ∈ 1 × k , W v , W u ⊤ ∈ k × d ′ \boldsymbol{W}^\top\in\mathbb{1\times k},\boldsymbol{W}_v,\boldsymbol{W}_u^\top\in\mathbb{k\times d'} W⊤∈1×k,Wv,Wu⊤∈k×d′,以及 b v , b u ∈ R k \boldsymbol{b}_v,\boldsymbol{b}_u\in\mathbb{R}^k bv,bu∈Rk是模型参数。 tanh ( ⋅ ) \tanh(\cdot) tanh(⋅)和 sigm \text{sigm} sigm均为激活函数。 ⊙ \odot ⊙表示按元素乘法。最终,包级别特征计算为:
z i = 1 ∑ j = 1 n i a i , j ∑ j = 1 n i a i , j h i , j . (3) \tag{3} \boldsymbol{z}_i=\frac{1}{\sum_{j=1}^{n_i}a_{i,j}}\sum_{j=1}^{n_i}a_{i,j}\boldsymbol{h}_{i,j}. zi=∑j=1niai,j1j=1∑niai,jhi,j.(3)为了确保汇聚的特征能够准确地表示包中信息,有必要保证注意力分数与实例级标签之间的一致性,即正实例的注意力得分应当显著高于负实例的注意力得分。对此,添加注意力损失如下:
L a = − ∑ j = 1 n i a i , j log a i , j . (4) \tag{4} \mathcal{L}_a=-\sum_{j=1}^{n_i}a_{i,j}\log a_{i,j}. La=−j=1∑niai,jlogai,j.(4)由于放大了正负面实例之间的注意力分数差异,该计算方法可以减少注意力分数的歧义。因此,消歧注意力分数可以使包级向量具有判别力,从而使分类器能够准确识别地面实况标签。
2.3 基于动量的消歧策略
在获得包级别特征
z
i
\boldsymbol{z}_i
zi之后,当前的目标是从候选标签集中准确的鉴别真实标签。因此,提出了一个基于动量的消歧损失,以为每个类别计算损失的加权和:
L
m
=
1
m
∑
i
=
1
m
∑
c
=
1
k
w
i
,
c
(
t
)
ℓ
(
f
c
(
t
)
(
z
i
(
t
)
,
S
i
)
,
)
(5)
\tag{5} \mathcal{L}_m=\frac{1}{m}\sum_{i=1}^m\sum_{c=1}^kw_{i,c}^{(t)}\ell\left( f_c^{(t)} (\boldsymbol{z}_i^{(t)},\boldsymbol{S}_i), \right)
Lm=m1i=1∑mc=1∑kwi,c(t)ℓ(fc(t)(zi(t),Si),)(5)其中
(
t
)
(t)
(t)表示第
t
t
t个训练轮次、
f
c
(
t
)
(
⋅
)
f_c^{(t)}(\cdot)
fc(t)(⋅)是第
t
t
t轮训练时模型在第
c
c
c类上的输出、
ℓ
(
⋅
)
\ell(\cdot)
ℓ(⋅)是交叉熵,以及
w
i
,
c
(
t
)
w_{i,c}^{(t)}
wi,c(t)是第
c
c
c类输出的加权。
遵循基于识别的消歧策略,候选标签集中具有最小损失值的标签将被认为是真实标签。我们的目标是为单个真实标签添加权重1,其余的添加权重0。然而在训练阶段,真实标签是未知。对此,本文基于类别概率的量级来分配权重,确保高类别概率与高权重相对应。因此,权重初始化为:
w
i
,
c
(
0
)
=
{
1
∣
S
i
∣
if
Y
i
,
c
∈
S
i
,
0
otherwise
,
(6)
\tag{6} w_{i,c}^{(0)}=\left\{ \begin{array}{cc} &\frac{1}{|\boldsymbol{S}_i|}&\text{if}\ \ Y_{i,c}\in\boldsymbol{S}_i,\\ &0&\text{otherwise}, \end{array} \right.
wi,c(0)={∣Si∣10if Yi,c∈Si,otherwise,(6)其中
1
∣
S
i
∣
\frac{1}{|\boldsymbol{S}_i|}
∣Si∣1是候选标签集大小的倒数。权重的更新如下:
w
i
,
c
(
t
)
=
{
λ
(
t
)
w
i
,
c
(
t
−
1
)
+
(
1
−
λ
(
t
)
)
f
c
(
t
)
(
z
i
(
t
)
)
∑
j
∈
S
i
f
j
(
t
)
(
z
j
(
t
)
)
if
Y
i
,
c
∈
S
i
,
0
otherwise
,
(7)
\tag{7} w_{i,c}^{(t)}=\left\{ \begin{array}{cc} &\lambda^{(t)}w_{i,c}^{(t-1)}+(1-\lambda^{(t)})\frac{f_c^{(t)}(\boldsymbol{z}_i^{(t)})}{\sum_{j\in\boldsymbol{S}_i}f_j^{(t)}(\boldsymbol{z}_j^{(t)})}&\text{if}\ \ Y_{i,c}\in\boldsymbol{S}_i,\\ &0&\text{otherwise}, \end{array} \right.
wi,c(t)=⎩
⎨
⎧λ(t)wi,c(t−1)+(1−λ(t))∑j∈Sifj(t)(zj(t))fc(t)(zi(t))0if Yi,c∈Si,otherwise,(7)其中
λ
(
t
)
=
T
−
t
T
\lambda^{(t)}=\frac{T-t}{T}
λ(t)=TT−t是动量参数,以及
T
T
T是最大训练轮次。
2.4 损失函数
最终的损失函数如下:
L
=
L
m
+
λ
a
L
a
(8)
\tag{8} \mathcal{L}=\mathcal{L}_m+\lambda_a\mathcal{L}_a
L=Lm+λaLa(8)算法1总结了DEMIPL算法。
3 实验
3.1 实验设置
- Benchmark数据集;
- 现实数据集:基于结直肠癌分类 (CRC) 数据集,引入CRC-MIPL。它包含7000张取自结直肠癌和正常组织的苏木精和伊红 (H&E) 染色图像。每幅图像的尺寸为224×224像素,并根据组织细胞类型分为七类之一。CRC-MIPL源自用于结直肠癌分类的更大数据集,该数据集最初包含100000张图像,分为九个类别。与其他类别相比,脂肪类和背景类表现出显着差异。因此,我们选择剩下的七个类别,每个类别抽取1000张图像。这些类别包括碎片、淋巴细胞、粘液、平滑肌、正常结肠粘膜、癌症相关间质和结直肠腺癌上皮细胞。
我们使用四个图像包生成器:Row、SBN、KMeansSeg,以及SIFT,分别从每个图像中提取实例。CRC-MIPL的候选标签集由三名不是专业病理学家的众包工作者提供。每个工作人员对所有7000张图像进行注释,并且每个工作人员分配具有非零概率的候选标签以形成每个图像的标签集。较高的概率表示成为真实标签的可能性较高,而零概率表示该标签是非候选标签。在为每个图像获得三个标签集后,提取最终的候选标签集如下:- 存在于两个或三个标签集中的标签被选为最终候选标签集的成员;
- 如果最终的候选标签集只有一个标签或没有标签,在每个标签集中挑选概率最大对应的标签,得到最终的候选标签集,长度为3;
- 最终候选标签集的平均长度为 2.08。