基本信息
· 题目:Multi-instance Learning with Discriminative Bag Mapping
· 会议:IEEE
摘要
目前,通过选择一个实例将一个包转化为一个新空间中的单个实例,主要是基于原始空间。但是基于原始空间的映射有一些缺陷,如:难以保证所选实例的识别能力。因此,允许一组实例共享一个标签,是解决学习中标签歧义问题的有效工具。本文提出了一种用于多示例学习的判别映射方法,旨在识别最佳实例,从而直接区分新映射空间中的包。
介绍
在有监督学习中,每一个训练样本都是一个带有类标签的实例;与有监督学习相比,多示例学习中的每一个训练样本则是一个含有多个实例的包,每个包都带有类标签。标签是分配给包的而不是给实例的。
若一个包是负包,那么该负包中的所有实例都是负的;但对于正包来说,包中至少有一个实例时正的。
现有的MIL方案主要分为两类:①改进传统的学习算法来解决标签歧义问题;②开发专门用于多示例学习的学习范式。但以上两种方案无法在包中含有大量实例的情况下呈现出优越的性能。
因此,本文提出一种用于多示例学习的直接判别映射方法,旨在识别那些能够使包在新的映射空间中能够被明显区分的实例。
相关工作
当数据集较庞大时,算法需要处理大量的实例。在这种情况下,选择那些最具代表性的实例来代表包就成为了一个具有挑战性的问题。解决这类问题的一种新方法是:使用那些在包中选择的实例,并将MIL问题转换为标准的单实例学习问题。我们将这些方法称为“基于实例选择的MIL”。可以将它们分为两类:①基于实例选择的非包映射方法;②基于实例选择的包映射方法。
①非包映射方法
该方法的基本思想是:从每个包中选出一个或多个实例来表示整个包。直接将包标签映射给包中的所有实例,让所有实例来表示包。但由于包中大部分信息都被丢弃,这种方法往往面临信息丢失和分类性能下降的问题。
②包映射方法
选择一组实例原型,将包映射到一个新的特征空间。
符合与算法框架
本文符号表如下:
符号 | 含义 |
---|---|
B B B | 训练集 |
n n n | 包数量 |
B i B_{i} Bi | 第 i i i个包 |
y i ∈ Y = { − 1 , + 1 } y_{i}∈Y=\left \{ -1,+1 \right \} yi∈Y={−1,+1} | 标签 |
X X X | 实例集 |
x i , j x_{i,j} xi,j | 第 i i i个包中的第 j j j个实例 |
p p p | 实例空间大小 |
P ⊆ X P\subseteq X P⊆X | 判别实例池(Discriminative Instance Pool, DIP) |
m m m | DIP大小 |
B i ϕ = [ s ( B i , x 1 ϕ ) , ⋅ ⋅ ⋅ , s ( B i , x m ϕ ) ] B_{i}^{\phi}=[s(B_{i},x_{1}^{\phi}),···,s(B_{i},x_{m}^{\phi})] Biϕ=[s(Bi,x1ϕ),⋅⋅⋅,s(Bi,xmϕ)] | 包映射 |
s ( B i , x k ϕ ) s(B_{i},x_{k}^{\phi}) s(Bi,xkϕ) | 包 B i B_{i} Bi与映射后的实例 x k ϕ x_{k}^{\phi} xkϕ的相似度 |
一个包
B
i
B_{i}
Bi包含许多实例,实例
x
i
,
j
x_{i,j}
xi,j表示在第
i
i
i个包中的第
j
j
j个实例。用
y
i
=
Y
,
Y
=
{
−
1
,
+
1
}
y_{i}=Y,Y=\left \{ -1,+1\right \}
yi=Y,Y={−1,+1}来表示包
B
i
B_{i}
Bi的标签。
在训练的过程中,所有的包
B
i
B_{i}
Bi都通过discriminative instance pool(DIP)转换称为一个新的特征空间中的一个单实例
B
i
ϕ
B_{i}^{\phi }
Biϕ。我们将DIP通过
P
P
P来表示。
在测试过程中,先通过DIP将每一个包映射为特征空间中新的实例,然后利用训练好的分类器来预测最终的类标签。该过程中最关键的一部分就是找到最优的用于包映射的DIP(discriminative instance pool)。
DIP(discriminative instance pool) Optimization
DIP优化目标为:使用一个实例选择矩阵
I
p
I_{p}
Ip(一种对角矩阵,
d
i
a
g
(
I
p
)
=
d
(
p
)
diag(I_{p})=d(p)
diag(Ip)=d(p) )来找到一个子集
P
∈
X
P∈X
P∈X。而
d
(
p
)
d(p)
d(p)是一个启示向量。若
x
i
∈
P
x_{i}∈P
xi∈P,那么
d
(
P
)
i
=
1
d(P)_{i}=1
d(P)i=1,否则
d
(
P
)
i
=
0
d(P)_{i}=0
d(P)i=0。
我们定义
J
(
P
)
J(P)
J(P)作为实例评估函数,用于评价子集
P
P
P的质量。表达式如下:
P
∗
=
arg
max
J
(
P
)
s
.
t
.
∣
P
∣
=
m
(1)
P_{*}=\arg\max J(P)\ \ s.t.|P|=m\tag{1}
P∗=argmaxJ(P) s.t.∣P∣=m(1)
其中,
∣
⋅
∣
| \ ·\ |
∣ ⋅ ∣表示实例集的基数,而
m
m
m为从实例集
X
X
X中选出的实例数量。
DIP评价标准
为了能够得到具有一定鉴别实例能力的DIP,引入以下两个规则:
①bag mapping must-link:由于每一个包
B
i
B_{i}
Bi都带有一个正或负类标签,因此DIP必须确保在另一个映射空间中的包
B
i
ϕ
B_{i}^{\phi }
Biϕ标签与包
B
i
B_{i}
Bi标签一致;
②bag mapping cannot-link:在映射空间中带有不同类别标签的包应该代表它们之间的差异;
DIP评价标准可以表示为:
J
(
P
)
=
1
2
∑
i
,
j
K
P
(
B
i
,
B
j
)
Q
i
,
j
(2)
J(P)=\frac{1}{2} {\textstyle \sum_{i,j}^{}}K_{P}(B_{i},B_{j})Q_{i,j}\tag{2}
J(P)=21∑i,jKP(Bi,Bj)Qi,j(2)
其中,
K
P
(
B
i
,
B
j
)
K_{P}(B_{i},B_{j})
KP(Bi,Bj)表示通过DIP得到的新的映射空间中包
B
i
B_{i}
Bi与包
B
j
B_{j}
Bj之间的距离。
J
(
P
)
J(P)
J(P)表示映射空间的区别程度。
K
P
(
B
i
,
B
j
)
K_{P}(B_{i},B_{j})
KP(Bi,Bj)能够表示为:
K
P
(
B
i
,
B
j
)
=
∣
∣
I
P
B
i
ϕ
x
−
I
P
B
j
ϕ
x
∣
∣
2
(3)
K_{P}(B_{i},B_{j})=||I_{P}B_{i}^{\phi_{x}} -I_{P}B_{j}^{\phi_{x}} ||^{2}\tag{3}
KP(Bi,Bj)=∣∣IPBiϕx−IPBjϕx∣∣2(3)
其中,
B
i
ϕ
x
B_{i}^{\phi_{x}}
Biϕx与
B
i
ϕ
B_{i}^{\phi}
Biϕ一样都使用了所有实例作为映射实例池。将标签嵌入矩阵
Q
Q
Q定义为:
Q
i
,
j
=
{
−
1
/
∣
A
∣
,
y
i
y
j
=
1
1
/
∣
B
∣
,
y
i
y
j
=
−
1
(4)
Q_{i,j}= \begin{cases} -1/|A|,y_{i}y_{j}=1\\ 1/|B|, y_{i}y_{j}=-1 \end{cases} \tag{4}
Qi,j={−1/∣A∣,yiyj=11/∣B∣,yiyj=−1(4)
其中,
A
=
{
(
i
,
j
)
∣
y
i
y
j
=
1
}
A=\left \{ (i,j)|y_{i}y_{j}=1 \right \}
A={(i,j)∣yiyj=1}表示bag mapping must-link的包集;
B
=
{
(
i
,
j
)
∣
y
i
y
j
=
−
1
}
B=\left \{ (i,j)|y_{i}y_{j}=-1 \right \}
B={(i,j)∣yiyj=−1}表示bag mapping cannot-link的包集。
J
(
P
)
J(P)
J(P)的推导过程如下:
其中,
t
r
(
⋅
)
tr(·)
tr(⋅)表示矩阵迹算子,
χ
ϕ
=
[
B
1
ϕ
x
,
⋅
⋅
⋅
,
B
n
ϕ
x
]
=
[
ϕ
1
,
⋅
⋅
⋅
,
ϕ
p
]
τ
∈
{
R
}
p
×
n
\chi_{\phi }=[B_{1}^{\phi _{x}},···,B_{n}^{\phi _{x}}]=[\phi _{1},···,\phi _{p}]^{\tau }∈\left \{ ℝ \right \}^{p\times n}
χϕ=[B1ϕx,⋅⋅⋅,Bnϕx]=[ϕ1,⋅⋅⋅,ϕp]τ∈{R}p×n,
n
n
n代表包的大小。
D
D
D是对角矩阵,它由矩阵
Q
Q
Q产生。
L
L
L是拉普拉斯(Laplacian)矩阵,由矩阵
Q
Q
Q产生,
L
L
L可以表示为
L
=
[
L
i
,
j
]
n
×
n
=
D
−
Q
L=[L_{i,j}]^{n×n}=D-Q
L=[Li,j]n×n=D−Q。通过函数
f
(
x
k
ϕ
,
L
)
f(x_{k}^{\phi},L)
f(xkϕ,L)来表示
ϕ
k
τ
L
ϕ
k
\phi_{k}^{\tau }L\phi_{k}
ϕkτLϕk。
最开始的优化问题可以转化为求使函数
f
(
x
k
ϕ
,
L
)
f(x_{k}^{\phi},L)
f(xkϕ,L)得到最大和的实例映射集合
P
P
P:
m
a
x
P
⊆
χ
∑
x
k
ϕ
⊆
P
f
(
x
k
ϕ
,
L
)
s
.
t
.
∣
P
∣
=
m
(6)
max_{P\subseteq\chi } {\textstyle \sum_{x_{k}^{\phi}\subseteq P}^{}} f(x_{k}^{\phi },L)\ \ \ \ s.t.|P|=m\tag{6}
maxP⊆χ∑xkϕ⊆Pf(xkϕ,L) s.t.∣P∣=m(6)
DIP算法流程如图所示:
算法以一个空实例集
P
=
∅
P=∅
P=∅以及最小分数
τ
=
0
\tau=0
τ=0开展。首先计算标签嵌入矩阵
Q
Q
Q以及与之相关联的拉普拉斯矩阵
L
L
L。然后通过实例
x
k
x_{k}
xk与拉普拉斯矩阵
L
L
L计算函数
f
(
x
k
,
L
)
f(x_{k},L)
f(xk,L)的值。若函数
f
(
x
k
,
L
)
f(x_{k},L)
f(xk,L)的值比最小识别分数值更大,那么实例
x
k
x_{k}
xk则被选为实例集
P
P
P中的一员。否则,倘若实例集
P
P
P溢出,那么在实例集
P
P
P中识别分数值最小的那个实例会从
P
P
P中移出。循环持续推荐直到产生最终的最佳识别实例池
P
P
P。
通过DIP实现包映射
一旦使用选择好的实例构建DIP,每个包都需要映射到新空间中的单个实例。给定一个DIP判别实例池
P
P
P,该DIP中有
m
m
m个实例,包
B
i
B_{i}
Bi能够映射为一个实例
B
i
ϕ
=
[
s
(
B
i
,
x
1
ϕ
)
,
⋅
⋅
⋅
,
s
(
B
i
,
x
m
ϕ
)
]
B_{i}^{\phi}=[s(B_{i},x_{1}^{\phi}),···,s(B_{i},x_{m}^{\phi})]
Biϕ=[s(Bi,x1ϕ),⋅⋅⋅,s(Bi,xmϕ)],而
s
(
B
i
,
x
k
ϕ
)
s(B_{i},x_{k}^{\phi})
s(Bi,xkϕ)代表包
B
i
B_{i}
Bi与示例
x
k
ϕ
x_{k}^{\phi}
xkϕ之间的相似度,表示为:
s
(
B
i
,
x
k
ϕ
)
=
m
a
x
x
i
,
j
∈
B
i
exp
(
−
∣
∣
x
i
,
j
−
x
k
ϕ
∣
∣
2
/
σ
2
)
(7)
s(B_{i},x_{k}^{\phi})=max_{x_{i,j}∈B_{i}}\ \exp (-||x_{i,j}-x_{k}^{\phi}||^{2}/\sigma ^{2})\tag{7}
s(Bi,xkϕ)=maxxi,j∈Bi exp(−∣∣xi,j−xkϕ∣∣2/σ2)(7)
其中,
x
i
,
j
x_{i,j}
xi,j代表在第
i
i
i个包
B
i
B_{i}
Bi中的第
j
j
j个实例,
σ
\sigma
σ为预设的比例因子。通过优化的DIP,每一个包
B
i
∈
B
B_{i}∈B
Bi∈B都映射为
B
i
ϕ
B_{i}^{\phi}
Biϕ。
映射算法又分为两类:①Global DiscriminativeBag Mapping;②Local Discriminative Bag Mapping
①Global DiscriminativeBag Mapping
这种映射方法是通过计算所有包中的每一个实例到DIP中的前
m
m
m个实例间的距离进行计算。
·aMILGDM:使用所有的训练集包来产生全局DIP
·pMILGDM:仅使用正包
② Local Discriminative Bag Mapping
这种映射方法计算了包中的每一个实例并选出一个具有最高识别分数的实例。
·aMILLDM:从每一个包中找出具有最高识别分数的实例
·pMILLDM:从每一个正包中找出具有最高识别分数的实例