论文阅读 (十八):Learning with Augmented Multi-Instance View (2014AMIV)

引入

  地址:http://129.211.169.156/publication/acml14.pdf
  要点:
  1)提出增强多示例视图框架,用以通过增强信息构建更好的模型;
  1.1)例子:仅有摘要信息可以利用时,摘要筛选任务可能会较困难,而当文档中参考文献的摘要作为增强信息时,其性能可能提高。
  1.2)如果每一个摘要表示为一个实例 x \boldsymbol{x} x,添加增强信息后,其可以表示为一个实例-包对 ( x , B ) (\boldsymbol{x}, B) (x,B)
  1.3)如果一个实例 x \boldsymbol{x} x拥有标签 y y y,则可以假设包 B B B中至少有一个实例拥有同样标签。
  2)将实例和包看作是两个视角,提出了AMIV-lss方法用以建立两个视角的潜在语义空间 (latent semantic subspace (LSS))。

  AMIV使用范围:当增强信息以多示例包的形式提出时。

1 AMIV框架

1.1 Formulation

  符号表如下:

符号含义
X S \mathcal{X}_S XS单实例视角下的实例空间
X A \mathcal{X}_A XA增强多示例视角下的实例空间
Y \mathcal{Y} Y标签集合
f : ( X S ; 2 X A ) → Y f: (\mathcal{X}_S; 2^{\mathcal{X}_A}) \rightarrow \mathcal{Y} f:(XS;2XA)Y映射函数
D = { ( x i , B i , y i ) ∣ i = 1 , 2 , ⋯   , n } D = \{ (\boldsymbol{x}_i, B_i, y_i) \mid i = 1, 2, \cdots, n\} D={(xi,Bi,yi)i=1,2,,n}数据集

1.2 AMIV-lss

  定义1:潜在语义子空间 J J J 表示实例 x \boldsymbol{x} x表示和相应的增强多示例视角下的包 B B B表示相互更近。
  直接指定 B B B表示是困难的,因为包中包含多个未知标签的实例。本文中,考虑为包 B B B寻找一个实例原型 s \boldsymbol{s} s,其能决定包的标签。
  具体的,一个两阶段的优化策略被采用:
  1)学习一个优化的潜在语义子空间;
  2)训练一个最大化边界的分类器。

1.2.1 习得实例表示

  令 X = [ x 1 , x 2 , ⋯   , x n ] ∈ R d × n X = [\boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}_n] \in \mathbb{R}^{d \times n} X=[x1,x2,,xn]Rd×n表示单实例视角下的 n n n个实例。令 P X = [ p x 1 , p x 2 , ⋯   , p x n ] ∈ R t × n P_X =[\boldsymbol{p}_{\boldsymbol{x}_1}, \boldsymbol{p}_{\boldsymbol{x}_2}, \cdots, \boldsymbol{p}_{\boldsymbol{x}_n}] \in \mathbb{R}^{t \times n} PX=[px1,px2,,pxn]Rt×n表示 X X X J J J上的表示,其中 p x i \boldsymbol{p}_{\boldsymbol{x}_i} pxi表示实例 x i \boldsymbol{x}_i xi的表示。令 Q = [ q 1 , q 2 , ⋯   , q t ] ⊤ ∈ R t × d Q = {[\boldsymbol{q}_1, \boldsymbol{q}_2, \cdots, \boldsymbol{q}_t]}^{\top} \in \mathbb{R}^{t \times d} Q=[q1,q2,,qt]Rt×d表示 J J J的基准,则有 X ⊤ = P X ⊤ Q X^\top = P_X^\top Q X=PXQ
  上述的表示已经在实际应用中展现,例如文本中 [ 1 ] ^{[1]} [1]。该应用中, X X X是一个item-word矩阵,表示itemword的语义关系, X ⊤ = P X ⊤ Q X^\top = P_X^\top Q X=PXQ通过item的语义主题模式和word的语义主题模式之间的关系来进行建模。在这里, p x \boldsymbol{p}_\boldsymbol{x} px表示 x \boldsymbol{x} x在语义主题 t t t下的模式, q \boldsymbol{q} q表示word的语义主题模式。
  为了建立LSS以及获得实例在此空间的表示,本文采用非负矩阵分解 (non-negative matrix factorization (NMF))框架 [ 2 ] ^{[2]} [2]
min ⁡ P X ≥ 0 , Q ≥ 0 ∥ X ⊤ − P X ⊤ Q ∥ F 2 + Ω ( P X , Q ) , (1) \min_{P_X \geq 0, Q \geq 0} {\left \| X^\top - P_X^\top Q \right \|}_F^2 + \Omega (P_X, Q), \tag{1} PX0,Q0minXPXQF2+Ω(PX,Q),(1)其中 Ω ( P X , Q ) = ∥ P X ∥ 1 + ∥ Q ∥ 1 \Omega (P_X, Q) = \| P_X \|_1 + \| Q \|_1 Ω(PX,Q)=PX1+Q1
  令 Z = [ B 1 , B 2 ⋯   , B n ] ∈ R d × r Z = [B_1, B_2 \cdots, B_n] \in \mathbb{R}^{d \times r} Z=[B1,B2,Bn]Rd×r表示增强多示例视角下的实例,其中 r = ∑ i = 1 n n i r = \sum_{i = 1}^n n_i r=i=1nni P Z = [ P B 1 , P B 2 , ⋯   , P B n ] ∈ R t × r P_Z = [P_{B_1}, P_{B_2}, \cdots, P_{B_n}] \in \mathbb{R}^{t \times r} PZ=[PB1,PB2,,PBn]Rt×r表示 Z Z Z J J J上的表示,其中 P B i = [ p b i 1 , p b i 2 , ⋯   , p b i , n i ] P_{B_i} = [\boldsymbol{p}_{\boldsymbol{b}_{i1}}, \boldsymbol{p}_{\boldsymbol{b}_{i2}}, \cdots, \boldsymbol{p}_{\boldsymbol{b}_{i, n_i}}] PBi=[pbi1,pbi2,,pbi,ni]表示 p b i j \boldsymbol{p}_{\boldsymbol{b}_{ij}} pbij关于 i j \boldsymbol{ij} ij的表示。相应的,我们有:
min ⁡ P Z ≥ 0 , Q ≥ 0 ∥ Z ⊤ − P Z ⊤ Q ∥ F 2 + Ω ( P Z , Q ) . (2) \min_{P_Z \geq 0, Q \geq 0} {\left \| Z^\top - P_Z^\top Q \right \|}_F^2 + \Omega (P_Z, Q). \tag{2} PZ0,Q0minZPZQF2+Ω(PZ,Q).(2)

1.2.2 习得包表示

  为了确定包的表示,本文首先定义一个关于包 B B B的关键原型 s \boldsymbol{s} s,其能够决定包的标签。
  令 S = [ s 1 , s 2 , ⋯   , s n ] ∈ R d × n S = [\boldsymbol{s}_1, \boldsymbol{s}_2, \cdots, \boldsymbol{s}_n] \in \mathbb{R}^{d \times n} S=[s1,s2,,sn]Rd×n表示关键原型所在空间。令 P S = [ p s 1 , p s 2 , ⋯   , p s n ] ∈ R t × n P_S = [\boldsymbol{p}_{\boldsymbol{s}_1}, \boldsymbol{p}_{\boldsymbol{s}_2}, \cdots, \boldsymbol{p}_{\boldsymbol{s}_n}] \in \mathbb{R}^{t \times n} PS=[ps1,ps2,,psn]Rt×n代表 S S S的表示。因此, p s i \boldsymbol{p}_{\boldsymbol{s}_i} psi为包 B i B_i Bi的表示。相应的有:
min ⁡ P S ≥ 0 , Q ≥ 0 ∥ S ⊤ − P S ⊤ Q ∥ F 2 + Ω ( P S , Q ) . (3) \min_{P_S \geq 0, Q \geq 0} {\left \| S^\top - P_S^\top Q \right \|}_F^2 + \Omega (P_S, Q). \tag{3} PS0,Q0minSPSQF2+Ω(PS,Q).(3)  一个简单判断关键原型的方法为使用包中心的实例代表。然后,这样做的不足在于,如果一个正包拥有的负实例比正的多,那么中心很可能是负的,其与包标签相反。为了解决这个问题,实例将配合权重进行考虑。
  给定单实例视角实例 x \boldsymbol{x} x,增强多示例视角包 B B B中离该实例近的实例,有更高的概率与其标签一致,因此,这样的实例应该具有更高的权重。当然,这会带来另一个问题:当实例高维且稀疏时,实例间的距离比较将变得不可信。
  为了解决这个问题,一个局部线性假设 [ 3 ] ^{[3]} [3]用于指定关键原型。假设原型 s i \boldsymbol{s}_i si是包 B i B_i Bi中离 x i \boldsymbol{x}_i xi近的实例的线性组合,这些离的近的实例称为邻居,被定义入 J J J
  定义关于 B i B_i Bi的邻居指示向量 δ i \boldsymbol{\delta_i} δi k k k个邻居 N k \mathrm{N}_k Nk。因此,如果 p b i j ∈ N k ( p x i ) \boldsymbol{p}_{\boldsymbol{b}_{ij}} \in \mathrm{N}_k (\boldsymbol{p}_{\boldsymbol{x}_i}) pbijNk(pxi),则 δ i j \delta_{ij} δij为1;反正为0.
  令 α i \boldsymbol{\alpha_i} αi是一个关于 B i B_i Bi的线性组合系数向量,则有 s = B i α i \boldsymbol{s} = B_i\boldsymbol{\alpha_i} s=Biαi,其中 α i j = exp ⁡ ( ) \alpha_{ij} = \exp() αij=exp()


参考文献:
[1] P.-W. Foltz, W. Kintsch, and T.-K. Landauer. The measurement of textual coherence with latent semantic analysis. Discourse processes, 25(2-3):285–307, 1998.
[2] C.-J. Hsieh and I.-S. Dhillon. Fast coordinate descent methods with variable selection for non-negative matrix factorization. In Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 1064–1072, 2011.
[3] S.-T. Roweis and L.-K. Saul. Nonlinear dimensionality reduction by locally linear embedding. Science, 290 (5500):2323–2326, 2000.

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值