【论文阅读】Multi-Instance Ensemble Learning With Discriminative Bags

陈序袁

已于 2022-10-26 09:24:58 修改

阅读量358

点赞数

分类专栏：多示例学习机器学习文章标签：机器学习算法人工智能

于 2022-08-03 11:40:07 首次发布

本文链接：https://blog.csdn.net/weixin_49592304/article/details/125736842

版权

机器学习同时被 2 个专栏收录

26 篇文章

订阅专栏

多示例学习

20 篇文章

订阅专栏

1、基本信息

@article{MeiYang2021MultiInstanceEL,
  title={Multi-Instance Ensemble Learning With Discriminative Bags},
  author={Mei Yang and Yu-Xuan Zhang and Xizhao Wang and Fan Min},
  journal={IEEE Transactions on Systems, Man, and Cybernetics},
  year={2021}
}

2、摘要

由于标签是基于包给出的，多示例学习（MIL）比传统的监督学习更具一般性和挑战性。当前流行的特征映射方法是将每个包转化为新特征空间中的一个实例，但大多数映射方法难以保持包的区分度。
为了解决这一问题，本文提出了基于判别包的多示例集成学习算法（multi-instance ensemble learning with discriminative bags，ELDB），该算法通过两部分得到一个判别性包集（dBagSet）。
首先，考虑数据的空间分布与标签分布，通过判别性（discriminative）分析来优化包选择过程，得到基本包子集；其次，结合状态与动作转移策略，通过自强化获得区分度较好的包子集。

3、介绍

现有的基于映射的算法难以保持包映射后在新特征空间中的区分度，且MIL模型不支持自我强化（self-reinforcement），这意味着它无法学习更多信息来提高其可区分性。因此，基于包的映射算法面临以下挑战：
（1）如何提高包在新特征空间中的可区分性；
（2）模型如何获得自我强化能力。
针对以上问题，本文提出了ELDB算法。
在这里插入图片描述
图中对比了传统包映射算法TBBM（kBagSet）与本文提出的包映射算法ELDB（dBagSet）。前者只考虑了数据的空间分布来生成关键包集，而ELDB通过进一步考虑数据的标签信息来生成判别性包集（discriminative bag set，dBagSet）。同时，ELDB也引入了一种自强化机制来学习和更新现有的包子集。
ELDB算法有两大特点：
（1）新的判别性包选择算法：a）与现有的基于映射的算法相比，ELDB算法生成的包映射向量具有更好的可判别性；b）与基于实例的判别映射算法相比，ELDB算法在时间复杂度分析和实验测试方面具有更好的可扩展性。
（2）分类器集成算法：多个加权模型联合起来共同确定包的标签，因此最终结果也会更加准确。

4、ELDB

4.1、符号表示

符号	含义
$\mathcal{T}=\left \{ \mathbf B_{i} \right \}^{\mathbf N}_{i=1}$	数据集
$\mathcal{T}_{d}\subset\mathcal{T}$	原始数据集
$\mathcal{T}_{s}=\mathcal{T} \setminus \mathcal{T}_{d}$	更新后的数据集
$\mathcal{T}_{e}\subset\mathcal{T}$	判别包集合（dBagSet）
$\mathbf Y=[y_{1},...,y_{N}]$	标签向量
$\mathbf B_{i}=\left \{ \mathbf x_{ij} \right \}_{j=1}^{n_{i}}$	数据集 $\mathcal{T}$ 中第 $i$ 个包
$\mathbf{x}_{ij}$	$\mathbf B_{i}$ 中的第 $j$ 个实例
$y_{i}$	$\mathbf B_{i}$ 的标签
$N$	$\mathcal{T}$ 的关联值
$\psi$	$\mathcal{T}_{e}$ 的关联值
$n_{i}$	$\mathbf B_{i}$ 的关联值
$\mathbf{b}_{i}$	$\mathbf B_{i}$ 的映射向量

4.2、算法

·基于实例的识别分析（Instance-Based Discriminative Analysis）

实例选择的映射方法是MIL分类问题的处理策略之一。其关键部分为基于所选实例设计一个映射函数，并将包转换到新的特征空间中。最简单的方法是将中间实例池中的所有实例构造成一个映射函数。包 $\mathbf B_{i}$ 与实例 $\mathbf x∈\mathbf X=\cup _{i=1}^{N}\mathbf B_{i}$ 之间的相似度定义为：
$f_{s}^{C}(\mathbf B_{i},\mathbf x)=\min_{j}exp(-\lambda ||\mathbf{x} _{ij}-\mathbf{x} ||^{2})\tag{1}$
该方法的缺点之一就是实例的数量决定了算法的时间开销。有两种策略能够解决这一问题（减少真正计算的实例数量，以免实例数量过多）：a）通过核密度估计（kernel density estimation）来从每一个正包中选出一个实例；b）从所有实例中选出最正的实例与最负的实例。
但这两种方法都没有考虑包在新的特征空间中的区分度。为了解决这一问题，我们设计一种基于聚类的策略（clustering-based strategy）来探究正负概念之间的相关性。引入新的评估标准后，与（1）式不同的相似性函数定义为：
$f_{s}^{W}(\mathbf B_{i},x)=\max_{j}exp(-\lambda ||x _{ij}-x||^{2})\tag{2}$

·映射函数（Mapping Function）

将判别包集合 $\mathcal{T}_{e}=\left \{ \mathbf B_{\zeta k} \right \}_{k=1}^{\psi }\subset\mathcal{T}$ , $\mathbf B_{i}∈\mathcal{T}$ 的映射方式为：
$f_{b}(\mathbf B_{i},\mathcal{T}_{e})\mapsto \mathbf b_{i}=[b_{i\zeta_{1}},...,b_{i\zeta_{\psi }}]\tag{3}$
其中， $1\le\zeta_{k }\le N$ ， $b_{i \zeta_{k}}$ 为 $\mathbf B_{i}$ 与 $\mathbf B_{\zeta k}$ 之间的关联值。因此，数据集将映射为：
$f_{m}(\mathcal{T},\mathcal{T}_{e})\mapsto V=\left \{ \mathbf{b_{i}} \right \}_{i=1}^{N}\tag{4}$
我们通过计算两个包直接的平均豪斯夫距离（average Hausdorff distance）来度量关联性：
$b_{ik}=||\bar{\mathbf{\mathit{x}}_{i} }-\bar{\mathbf{\mathit{x} }_{k}} ||\tag{5}$
其中， $\bar{x_{i}}=\sum_{j=1}^{n_{i}}x_{ij}/n_{i}$ 。

·分类器集成（Classifier Ensembling）

本文引入自强化机制（self-reinforcement mechanism），并为每个分类器分配一个权值。

A.算法框架（ Overall Framework）

在这里插入图片描述
图为算法流程，主要分为两个部分，左边的包选择技术（Bag selection technique）部分与右边的集成技术（Ensemble technique）。

·包选择技术（Bag selection technique）

首先算法采用两部分的包选择技术（Bag selection technique）来产生dBagSet $\mathcal{T}_{e}\subset\mathcal{T}$ 。第一部分是区别性分析（discriminative
analysis），通过分析原始数据集 $\mathcal{T}_{d}$ 的空间与标签分布来生成识别性矩阵（discriminative matrix） $\mathbf{\mathit{L} }$ 及基础判别包集合dBagSet $\mathcal{T}_{e}^{0}$ 。第二部分是自我强化机制，对于 ${T}_{s}$ 的子集，自我强化机制能够判断是否可以更新dBagSet。最终，我们能够得到具有更高区分度的dBagSet。

·集成技术（Ensemble technique）

集成技术根据SIL分类器 $f_{c}(...)$ 以及指定映射函数对这些包集进行集成：

1）原始数据集和更新后的数据集将分别被映射为单实例 $\mathbf{\mathit{V} } _{d}^{i}$ 与 $\mathbf{\mathit{V} } _{s}^{i}$ ；

2）通过实例 $\mathbf{\mathit{V} } _{d}^{i}$ 和标签向量 $\left [ y_{\xi1 },..., y_{\xi N_{d} }\right ]$ 来训练单实例模型 $\mathbf{\mathit{M} }_{i}$ ；

3）基于单实例模型 $\mathbf{\mathit{M} }_{i}$ 和更新后数据集映射得到的单实例 $\mathbf{\mathit{V} } _{s}^{i}$ 来计算模型权值 $w_{i}$ 。

通过集成包集dBagSets、模型models以及权值来得到带权集成模型（weighted ensemble model）。

B.包选择技术

包选择技术包括两个部分：首先，判别性分析技术先生成初始的包集dBagSet。其次，自我强化机制提供更新策略来更新包集。

1）判别性分析：为了能够根据数据集的空间分布与标签分布来获取具有一定区别度的基本包集dBagSet，我们需要计算：
$\max_{\mathcal{T}_{e}\subseteq \mathcal{T}_{d}\subset\mathcal{T}}\sum_{y_{\xi _{i}}\ne y_{\xi _{j}}}^{} d(f_{b}(\mathbf{\mathit{B} }_{\xi _{i}},\mathcal{T}_{e} ),f_{b}(\mathbf{\mathit{B} }_{\xi _{j}}, \mathcal{T}_{e} ))\tag{6}$
以及
$\min_{\mathcal{T}_{e}\subseteq \mathcal{T}_{d}\subset\mathcal{T}}\sum_{y_{\xi _{i}}= y_{\xi _{j}}}^{} d(f_{b}(\mathbf{\mathit{B} }_{\xi _{i}},\mathcal{T}_{e} ),f_{b}(\mathbf{\mathit{B} }_{\xi _{j}}, \mathcal{T}_{e} ))\tag{7}$
其中， $d (\cdot,\cdot)$ 表示两个映射向量之间的距离。当 $\mathcal{T}_{e}$ 已知，我们设 $d_{ij}=d(f_{b}(\mathbf{\mathit{B} }_{\xi _{i}},\mathcal{T}_{e} ),f_{b}(\mathbf{\mathit{B} }_{\xi _{j}}, \mathcal{T}_{e} ))$ 。

为了能够将多目标优化问题转化为单目标优化问题，我们引入包连接矩阵（bag-link matrix） $\Delta =[\delta _{ij}]_{N_{d}\times N_{d}}$ ：
$\delta _{ij}=\begin{cases} \lambda _{ij}, y_{\xi _{i}}\ne y_{\xi _{j}}\\ -\lambda _{ij}, y_{\xi _{i}}= y_{\xi _{j}} \end{cases}\tag{8}$
其中， $\lambda_{ij} >0$ 是尺度参数，后面会设置为1。因此，组合优化目标为使得新特征空间中属于 $\mathcal{T}_{d}$ 的所有包的可分辨性总和最大，即：让 $\mathcal{T}_{d}$ 中包的可分辨性最大，就要让 $\mathcal{T}_{d}$ 中任意两个不同标签的包之间的距离最大，任意两个相同标签的包之间的距离最小:
$\max_{\mathcal{T} _{e}\subseteq \mathcal{T} _{d}\subset \mathcal{T}}\mathcal{J}(\mathcal{T}_{d},\mathcal{T}_{e})=\frac{1}{2} \sum_{B_{\xi _{i}},B_{\xi _{j}}∈\mathcal{T}_{d}}^{} d_{ij}\delta _{ij}\tag{9}$
该式子体现了在新的特征空间中属于 $\mathcal{T}_{d}$ 的所有包的区分度。然而，目前的问题在于如何找到判别包集合 $\mathcal{T}_{e}$ 。最简单的方式是遍历每个非空子集 $\mathcal{T}_{e} \subseteq\mathcal{T}_{d}$ ，但时间复杂度达到了 $o(2^{N})$ 。

为了解决这一问题，引入了对角包选择矩阵（the diagonal bag selection matrix） $\mathbf{\mathit{Q} }=[q_{ij}]_{N_{d} \times N_{d}}$ 。若 $i = j$ 且 $\mathbf{\mathit{B} }_{\xi _{i}}∈\mathcal{T}_{e}$ ，则 $q_{ij}=1$ ，否则 $q_{ij}=0$ 。具体来说， $d_{ij}$ 的计算公式为：
$d_{ij}=\left \| Qb^{*}_{\xi_{i} }- Qb^{*}_{\xi_{j} }\right \| ^{2}\tag{10}$
其中， $b^{*}_{\xi_{i} }=f_{b}(\mathbf{\mathit{B} }_{\xi_{i}},\mathcal{T}_{d})$ 是通过（3）式计算得到。然后，我们就得到了：
$\mathcal{J}(\mathcal{T}_{d},\mathcal{T}_{e})=\frac{1}{2}\sum_{i,j}^{}((b^{*}_{\xi _{i}})^{T}Q^{T}Qb^{*}_{\xi _{i}}+(b^{*}_{\xi _{j}})Q^{T}Qb^{*}_{\xi _{j}}-(b^{*}_{\xi _{i}})Q^{T}Qb^{*}_{\xi _{j}}-(b^{*}_{\xi _{j}})Q^{T}Qb^{*}_{\xi _{i}})\delta _{ij} \tag{11}$

对于（8）式，最简单的设定为： $\forall i,j,\lambda _{ij}=1$ 。此外，让 $\Gamma=[\gamma _{ij}]_{N_{d}\times N_{d}}$ 代表对角矩阵，其中 $\gamma _{ij}=\sum_{j}^{}\delta _{ij}$ 。我们得到了：
$\mathcal{J}(\mathcal{T}_{d},\mathcal{T}_{e})=\sum_{i,j}^{}((b^{*}_{\xi _{i}})^{T}Q^{T}Qb^{*}_{\xi _{i}}-(b^{*}_{\xi _{i}})^{T}Q^{T}Qb^{*}_{\xi _{j}})\delta _{ij} \\= tr(Q^{T}V^{*}_{d}(\Gamma-\Delta)(V^{*}_{d})^{T}Q)\\=tr(Q^{T}V^{*}_{d}L(V^{*}_{d})^{T}Q)\\ =\sum_{B_{\xi _{k}∈\mathcal{T}_{e}}}^{}b^{*}_{\xi _{k}}L(b^{*}_{\xi _{k}})^{T} \tag{12}$
其中， $V^{*}_{d}=f_{m}(\mathcal{T}_{d},\mathcal{T}_{d})$ 是通过（4）式计算得出。包 $B_{k}∈\mathcal{T}$ 的判别性分数 $p_{k}$ 定义如下：
$p_{k}=b^{*}_{k}L(b^{*}_{k})^{T}\tag{13}$

其中， $L$ 作为判别性矩阵。

原始的优化问题变为最大化判别性分数，计算出每个包 $B_{\xi _{i}}∈\mathcal{T}_{d}$ 的分数，然后找出分数最大的前 $\psi$ 个包组成 $\mathcal{T}_{e}$ ：
$\max_{\mathcal{T} _{e}\subseteq \mathcal{T} _{d}\subset \mathcal{T}}\sum_{B_{\xi _{k}}∈\mathcal{T}}^{} p_{\xi _{k}}\tag{14}$

完整的过程为：
$\mathcal{T}_{e}=bagSelection(\mathcal{T}_{d},\psi )\tag{15}$
通过考虑（14）式的解区间，我们设计了4种dBagSet初始化模式：
1） $Gl o ba l (g)$ 使用所有包来生成dBagSet。
2） $P os i t i v e (p)$ 仅使用所有正包。
3） $N e g a t i v e (n)$ 仅使用所有负包。
4） $B a l an ce (b)$ 选择相等数量的正负判别包。
我们将通过实验来对比这几种模式。

2）自强化机制：我们引入自强化机制，用于dBagSet的更新迭代。让 $\mathcal{T}^{i}_{e}$ 表示第 $i$ 个阶段的dBagSet。我们可以通过（15）式得到 $\mathcal{T}^{0}_{e}$ ，即初始dBagSet。让 $a_{i}$ 来表示 $\mathcal{T}^{i}_{e}$ 是否以及更新。

主要操作：遍历 $\mathcal{T}_{s}$ 的子集 $\mathcal{T}^{'}$ 中的包 $B_{\xi _{j}}$ ，并比较本次判别度分数 $p_{\xi _{j}}$ 与 $\mathcal{T}^{i}_{e}$ 中的最小分数 $p_{\xi_{\tau}}$ 。若 $p_{\xi _{j}}\le p_{\xi_{\tau}}$ ，那么本次不更新；否则 $a_{i}$ 将设置为1，即更新。共有两种不同的行为模式：
1） $A dd i t i o n (a)$ ：通过添加被选中的包来更新 $\mathcal{T}_{e}^{i}$ 。
2） $R e pl a ce m e n t (r)$ ：通过替换包以及重新计算 $p_{\xi_{\tau}}^{*}$ 来更新 $\mathcal{T}_{e}^{i}$ 。
自强化机制伪代码：
在这里插入图片描述

C.集成技术

为了便于描述，使用的单实例分类器（如：KNN）的输入输出关系表述为：
$M=f^{model}_{c}(V,Y)\tag{16}$
$w=f^{weight}_{c}(V,Y,M)\tag{17}$
$\hat{y_{i}} =f^{predict}_{c}(b_{i},M)\tag{18}$
其中， $M$ 为训练的单实例分类模型， $w$ 为性能度量的值， $\hat{y_{i}}$ 为包 $B_{i}$ 的预测标签。
通过带权的集成模型 $\mathcal{M}$ ，包 $B_{i}$ 的标签可预测为：
$\hat{y_{i}}=sign(\sum_{j}^{}w_{j}Y_{ij} )\tag{19}$
其中：
$Y_{ij}=f^{predict}_{c}(f_{b}(B_{i},\mathcal{T}^{i}_{e}),M_{i})\tag{20}$
其中， $f_{b}(·,·)$ 是（3）式的映射函数；若 $x\ge0$ ，则 $s i g n (x) = 1$ ，否则 $s i g n (x) = - 1$ 。