引入
地址:http://129.211.169.156/publication/acml14.pdf
要点:
1)提出增强多示例视图框架,用以通过增强信息构建更好的模型;
1.1)例子:仅有摘要信息可以利用时,摘要筛选任务可能会较困难,而当文档中参考文献的摘要作为增强信息时,其性能可能提高。
1.2)如果每一个摘要表示为一个实例
x
\boldsymbol{x}
x,添加增强信息后,其可以表示为一个实例-包对
(
x
,
B
)
(\boldsymbol{x}, B)
(x,B)。
1.3)如果一个实例
x
\boldsymbol{x}
x拥有标签
y
y
y,则可以假设包
B
B
B中至少有一个实例拥有同样标签。
2)将实例和包看作是两个视角,提出了AMIV-lss方法用以建立两个视角的潜在语义空间 (latent semantic subspace (LSS))。
AMIV使用范围:当增强信息以多示例包的形式提出时。
1 AMIV框架
1.1 Formulation
符号表如下:
符号 | 含义 |
---|---|
X S \mathcal{X}_S XS | 单实例视角下的实例空间 |
X A \mathcal{X}_A XA | 增强多示例视角下的实例空间 |
Y \mathcal{Y} Y | 标签集合 |
f : ( X S ; 2 X A ) → Y f: (\mathcal{X}_S; 2^{\mathcal{X}_A}) \rightarrow \mathcal{Y} f:(XS;2XA)→Y | 映射函数 |
D = { ( x i , B i , y i ) ∣ i = 1 , 2 , ⋯ , n } D = \{ (\boldsymbol{x}_i, B_i, y_i) \mid i = 1, 2, \cdots, n\} D={(xi,Bi,yi)∣i=1,2,⋯,n} | 数据集 |
1.2 AMIV-lss
定义1:潜在语义子空间
J
J
J 表示实例
x
\boldsymbol{x}
x的表示和相应的增强多示例视角下的包
B
B
B的表示相互更近。
直接指定
B
B
B的表示是困难的,因为包中包含多个未知标签的实例。本文中,考虑为包
B
B
B寻找一个实例原型
s
\boldsymbol{s}
s,其能决定包的标签。
具体的,一个两阶段的优化策略被采用:
1)学习一个优化的潜在语义子空间;
2)训练一个最大化边界的分类器。
1.2.1 习得实例表示
令
X
=
[
x
1
,
x
2
,
⋯
,
x
n
]
∈
R
d
×
n
X = [\boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}_n] \in \mathbb{R}^{d \times n}
X=[x1,x2,⋯,xn]∈Rd×n表示单实例视角下的
n
n
n个实例。令
P
X
=
[
p
x
1
,
p
x
2
,
⋯
,
p
x
n
]
∈
R
t
×
n
P_X =[\boldsymbol{p}_{\boldsymbol{x}_1}, \boldsymbol{p}_{\boldsymbol{x}_2}, \cdots, \boldsymbol{p}_{\boldsymbol{x}_n}] \in \mathbb{R}^{t \times n}
PX=[px1,px2,⋯,pxn]∈Rt×n表示
X
X
X在
J
J
J上的表示,其中
p
x
i
\boldsymbol{p}_{\boldsymbol{x}_i}
pxi表示实例
x
i
\boldsymbol{x}_i
xi的表示。令
Q
=
[
q
1
,
q
2
,
⋯
,
q
t
]
⊤
∈
R
t
×
d
Q = {[\boldsymbol{q}_1, \boldsymbol{q}_2, \cdots, \boldsymbol{q}_t]}^{\top} \in \mathbb{R}^{t \times d}
Q=[q1,q2,⋯,qt]⊤∈Rt×d表示
J
J
J的基准,则有
X
⊤
=
P
X
⊤
Q
X^\top = P_X^\top Q
X⊤=PX⊤Q。
上述的表示已经在实际应用中展现,例如文本中
[
1
]
^{[1]}
[1]。该应用中,
X
X
X是一个item-word矩阵,表示item与word的语义关系,
X
⊤
=
P
X
⊤
Q
X^\top = P_X^\top Q
X⊤=PX⊤Q通过item的语义主题模式和word的语义主题模式之间的关系来进行建模。在这里,
p
x
\boldsymbol{p}_\boldsymbol{x}
px表示
x
\boldsymbol{x}
x在语义主题
t
t
t下的模式,
q
\boldsymbol{q}
q表示word的语义主题模式。
为了建立LSS以及获得实例在此空间的表示,本文采用非负矩阵分解 (non-negative matrix factorization (NMF))框架
[
2
]
^{[2]}
[2]:
min
P
X
≥
0
,
Q
≥
0
∥
X
⊤
−
P
X
⊤
Q
∥
F
2
+
Ω
(
P
X
,
Q
)
,
(1)
\min_{P_X \geq 0, Q \geq 0} {\left \| X^\top - P_X^\top Q \right \|}_F^2 + \Omega (P_X, Q), \tag{1}
PX≥0,Q≥0min∥∥X⊤−PX⊤Q∥∥F2+Ω(PX,Q),(1)其中
Ω
(
P
X
,
Q
)
=
∥
P
X
∥
1
+
∥
Q
∥
1
\Omega (P_X, Q) = \| P_X \|_1 + \| Q \|_1
Ω(PX,Q)=∥PX∥1+∥Q∥1。
令
Z
=
[
B
1
,
B
2
⋯
,
B
n
]
∈
R
d
×
r
Z = [B_1, B_2 \cdots, B_n] \in \mathbb{R}^{d \times r}
Z=[B1,B2⋯,Bn]∈Rd×r表示增强多示例视角下的实例,其中
r
=
∑
i
=
1
n
n
i
r = \sum_{i = 1}^n n_i
r=∑i=1nni;
P
Z
=
[
P
B
1
,
P
B
2
,
⋯
,
P
B
n
]
∈
R
t
×
r
P_Z = [P_{B_1}, P_{B_2}, \cdots, P_{B_n}] \in \mathbb{R}^{t \times r}
PZ=[PB1,PB2,⋯,PBn]∈Rt×r表示
Z
Z
Z在
J
J
J上的表示,其中
P
B
i
=
[
p
b
i
1
,
p
b
i
2
,
⋯
,
p
b
i
,
n
i
]
P_{B_i} = [\boldsymbol{p}_{\boldsymbol{b}_{i1}}, \boldsymbol{p}_{\boldsymbol{b}_{i2}}, \cdots, \boldsymbol{p}_{\boldsymbol{b}_{i, n_i}}]
PBi=[pbi1,pbi2,⋯,pbi,ni]表示
p
b
i
j
\boldsymbol{p}_{\boldsymbol{b}_{ij}}
pbij关于
i
j
\boldsymbol{ij}
ij的表示。相应的,我们有:
min
P
Z
≥
0
,
Q
≥
0
∥
Z
⊤
−
P
Z
⊤
Q
∥
F
2
+
Ω
(
P
Z
,
Q
)
.
(2)
\min_{P_Z \geq 0, Q \geq 0} {\left \| Z^\top - P_Z^\top Q \right \|}_F^2 + \Omega (P_Z, Q). \tag{2}
PZ≥0,Q≥0min∥∥Z⊤−PZ⊤Q∥∥F2+Ω(PZ,Q).(2)
1.2.2 习得包表示
为了确定包的表示,本文首先定义一个关于包
B
B
B的关键原型
s
\boldsymbol{s}
s,其能够决定包的标签。
令
S
=
[
s
1
,
s
2
,
⋯
,
s
n
]
∈
R
d
×
n
S = [\boldsymbol{s}_1, \boldsymbol{s}_2, \cdots, \boldsymbol{s}_n] \in \mathbb{R}^{d \times n}
S=[s1,s2,⋯,sn]∈Rd×n表示关键原型所在空间。令
P
S
=
[
p
s
1
,
p
s
2
,
⋯
,
p
s
n
]
∈
R
t
×
n
P_S = [\boldsymbol{p}_{\boldsymbol{s}_1}, \boldsymbol{p}_{\boldsymbol{s}_2}, \cdots, \boldsymbol{p}_{\boldsymbol{s}_n}] \in \mathbb{R}^{t \times n}
PS=[ps1,ps2,⋯,psn]∈Rt×n代表
S
S
S的表示。因此,
p
s
i
\boldsymbol{p}_{\boldsymbol{s}_i}
psi为包
B
i
B_i
Bi的表示。相应的有:
min
P
S
≥
0
,
Q
≥
0
∥
S
⊤
−
P
S
⊤
Q
∥
F
2
+
Ω
(
P
S
,
Q
)
.
(3)
\min_{P_S \geq 0, Q \geq 0} {\left \| S^\top - P_S^\top Q \right \|}_F^2 + \Omega (P_S, Q). \tag{3}
PS≥0,Q≥0min∥∥S⊤−PS⊤Q∥∥F2+Ω(PS,Q).(3) 一个简单判断关键原型的方法为使用包中心的实例代表。然后,这样做的不足在于,如果一个正包拥有的负实例比正的多,那么中心很可能是负的,其与包标签相反。为了解决这个问题,实例将配合权重进行考虑。
给定单实例视角实例
x
\boldsymbol{x}
x,增强多示例视角包
B
B
B中离该实例近的实例,有更高的概率与其标签一致,因此,这样的实例应该具有更高的权重。当然,这会带来另一个问题:当实例高维且稀疏时,实例间的距离比较将变得不可信。
为了解决这个问题,一个局部线性假设
[
3
]
^{[3]}
[3]用于指定关键原型。假设原型
s
i
\boldsymbol{s}_i
si是包
B
i
B_i
Bi中离
x
i
\boldsymbol{x}_i
xi近的实例的线性组合,这些离的近的实例称为邻居,被定义入
J
J
J。
定义关于
B
i
B_i
Bi的邻居指示向量
δ
i
\boldsymbol{\delta_i}
δi及
k
k
k个邻居
N
k
\mathrm{N}_k
Nk。因此,如果
p
b
i
j
∈
N
k
(
p
x
i
)
\boldsymbol{p}_{\boldsymbol{b}_{ij}} \in \mathrm{N}_k (\boldsymbol{p}_{\boldsymbol{x}_i})
pbij∈Nk(pxi),则
δ
i
j
\delta_{ij}
δij为1;反正为0.
令
α
i
\boldsymbol{\alpha_i}
αi是一个关于
B
i
B_i
Bi的线性组合系数向量,则有
s
=
B
i
α
i
\boldsymbol{s} = B_i\boldsymbol{\alpha_i}
s=Biαi,其中
α
i
j
=
exp
(
)
\alpha_{ij} = \exp()
αij=exp()
参考文献:
[1] P.-W. Foltz, W. Kintsch, and T.-K. Landauer. The measurement of textual coherence with latent semantic analysis. Discourse processes, 25(2-3):285–307, 1998.
[2] C.-J. Hsieh and I.-S. Dhillon. Fast coordinate descent methods with variable selection for non-negative matrix factorization. In Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 1064–1072, 2011.
[3] S.-T. Roweis and L.-K. Saul. Nonlinear dimensionality reduction by locally linear embedding. Science, 290 (5500):2323–2326, 2000.