【论文阅读】Attention-based Deep Multiple Instance Learning-CSDN博客

低维嵌入是一种常见的数据降维技术，用于将高维数据映射到一个低维空间中，同时尽可能地保留原始数据之间的关系和结构。这种降维过程有助于可视化高维数据、减少计算成本和处理复杂性，同时可以更好地理解数据的内在特征。论文中将将实例转化为低维嵌入意味着将每个具体的实例从其原始的高维特征空间映射到一个较低维度的空间中。

通常情况下，实例是由许多特征或属性组成的向量，这些向量构成了高维特征空间中的数据点。然而，高维数据在可视化和处理上可能面临挑战，因为我们很难直观地理解高维空间中的数据分布。此时，低维嵌入技术可以帮助我们将数据映射到一个更易于理解和处理的低维空间。

1.2 端到端的训练（End-to-End Training）

端到端的训练是指在机器学习或深度学习任务中，将整个系统从原始输入数据（端）到最终输出结果（端）一并作为一个整体进行训练的方法。

端到端的训练则试图通过直接从原始输入数据中学习任务的映射关系，来避免手动设计特征提取器和中间步骤。深度学习中的神经网络是常见的端到端训练的模型。在神经网络中，原始输入数据经过一系列的层级处理，最终得到输出结果。这些层级的参数是通过梯度下降等优化算法来调整的，以最小化预测输出与真实输出之间的误差。整个神经网络系统的所有组件（包括特征提取和任务映射）都被一起训练，形成一个端到端的模型。

1.3 MIL池（MIL Pooling）

MIL池是指在多示例学习任务中，对多个实例的特征进行汇聚的一种方法。在MIL任务中，常常使用池化操作来将多个实例的特征汇聚成一个包的特征表示。具体来说，如果每个实例的特征是一个向量，那么MIL池的过程如下：

最大池化（Max Pooling）：对于每个特征维度，从所有实例的对应维度取最大值。最后得到的向量即为包的特征表示。
平均池化（Average Pooling）：对于每个特征维度，将所有实例的对应维度进行平均。最后得到的向量即为包的特征表示。

1.4 排列不变性（Permutation-Invariant）

排列不变形是指模型对输入中元素的排列顺序不敏感，即无论输入的元素怎样重新排列，模型的输出结果应该保持不变。这在处理集合或序列数据时特别重要。假设有一个集合包含{1, 2, 3}这三个元素。对于一个排列不变的模型，如集合的元素的排列为{1, 2, 3}或{3, 2, 1}或{2, 1, 3}，模型的输出应该是相同的。

1.5 注意力机制（Attention Mechanism）

注意力机制是深度学习中的一种重要技术，它模拟了人类在处理信息时的注意力机制，使得神经网络能够在输入数据中有选择性地聚焦于相关部分，从而更有效地学习和处理信息。

在图像分类任务中，如果有一张图像包含了狗和猫，而我们的目标是识别图像中的动物类别。注意力机制可以让模型在处理这张图像时，集中注意力在可能包含动物的区域，比如狗的部分或猫的部分，而忽略背景或其他不重要的区域。这样，模型更有可能正确地判断图像的类别。

注意力机制允许神经网络根据输入的不同部分自适应地分配注意力，这样可以更有效地处理复杂的输入数据并提高模型的性能。

2. Abstract

本文将MIL问题描述为学习包标签的伯努利分布，其中包标签的概率由神经网络完全参数化，并在此基础上提出了一种基于神经网络的与注意力机制相对应的排列不变聚合算子。

3. Introduction

为了解决包分类问题的主要任务，以往方法的实例精度比较低，而且通常情况下，MIL方法在实例级上存在分歧，这些问题对当前MIL模型解释最终决策的可用性提出了质疑。

本文提出了一种新的方法，旨在将可解释性纳入MIL方法并增加其灵活性。使用包标签的伯努利分布来建立MIL模型，并通过优化对数似然函数来训练它。本文证明了对称函数基本定理的应用为包的标签概率建模提供了一个通用的过程，该过程由三个步骤组成：

将实例转换为低维嵌入
使用排列不变性（对称）的聚合函数
转换包的概率

本文建议使用神经网络（即卷积层和全连接层的组合）参数化所有转换，这增加了方法的灵活性，并允许通过优化无约束目标函数以端到端方式训练模型。用可训练的加权平均来取代广泛使用的置换不变算子，如最大算式max和平均算式mean，其中权重由双层神经网络给出。双层神经网络与注意力机制相对应。

4. Methodology

4.1 Multiple instance learning (MIL)

MIL问题可以简化为以下公式：

$Y = \left\{\begin{matrix} & 0, iff\sum _ky_k=0,\\ & 1, otherwise \end{matrix}\right.$

这个假设意味着MIL模型必须是排列不变的，而这个公式可以进一步用最大运算符重新表述：

$Y=\mathop{max}\limits_{k}\left\{y_k\right\}$

但该模型基于实例标签最大值来优化目标，存在一定问题：

所有基于梯度的学习方法都会遇到梯度消失的问题；
这种表述只适用于使用实例级分类器的情况。

为了使学习问题更容易，本文提出通过优化对数似然函数来训练MIL模型，其中包的标签依据伯努利分布，参数为 $\theta(X)\in[0,1]$ ，即给定包X的标签值Y = 1的概率。

本文提出了以下两个定理：

对于实例集X， $S(X)\in R$ 是一个对称函数，当且仅当它可以分解为一下形式时：

$S(X) = g(\sum \limits_{x \in X} f(x))$

对于任意的 $\epsilon > 0,Hausdorff$ 连续对称函数 $S(X)\in R$ 可以用 $g(\mathop{max}_{x \in X} f(x))$ 形式的函数任意逼近，其中max为逐元向量极大算子，f和g为连续函数：

$|S(X)-g(\mathop{max}\limits_{x}f(x))| < \epsilon$

这两个定理的差别在于前者是一个普通分解，而后者提供了一个任意近似。尽管如此，它们都制定了一个通用的三步法来对一个实例包进行分类：

使用函数f对实例进行变换；
使用对称（排列不变性）函数 $\sigma$ 对变换后的实例进行组合；
使用函数g对f变换后的组合实例进行变换

两个定理中的得分函数是概率 $S(X)$ 就是概率 $\theta(X)$ ，而 $\sigma$ 函数称为MIL池。函数f、g和σ的选择决定了对标签概率建模的具体方法。对于给定的MIL操作符，有两种给定的MIL方法：

实例级方法：转换f是一个实例级分类器，它返回每个实例的分数。然后通过MIL池对个体分数进行汇总，得到 $\theta(X)$ 。函数g是恒等函数。
嵌入级方法：函数f将实例映射到低维嵌入。MIL池用于获得与包中实例数量无关的包表示。袋子表示由袋子级分类器进一步处理以提供 $\theta(X)$ 。

本文更推荐使用后者，并展示如何通过使用新的MIL池来修改嵌入级方法。

4.2 MIL with Neural Networks

在经典的MIL问题中，实例由不需要进一步处理的特征表示，即f是恒等。然而，对于某些任务，如图像或文本分析，额外的特征提取步骤是必要的。

因此，本文考虑一类由神经网络参数化的转换，其参数将第k个实例转换为低维嵌入， $h_k = f_{\phi}(x_k)$ ，其中 $h_k \in H$ 使得 $H = [0,1]$ 表示基于实例的方法， $H = R^M$ 表示基于嵌入的方法。

最终，参数 $\theta(X)$ 由变换 $g_{\phi}: H^k\rightarrow [0,1]$ 决定。在基于实例的方法中，变换 $g_\phi$ 是一个简单的恒等，而在基于嵌入的方法中，它也可以用一个带有参数 $\phi$ 的神经网络来参数化。

4.3 MIL pooling

MIL问题的表述要求MIL池σ是排列不变性的。如定理1和定理2所示，有两个MIL池运算符保证得分函数(即袋概率)是对称函数，即最大算子max和平均算子mean:

$\forall _{m=1,....,M}:z_m = \mathop{max}\limits_{k=1,....,K }\left\{h_{km}\right\}$

$z=\frac{1}{K}\sum^{K}_{k=1}h_k$

4.4 Attention-based MIL pooling

上文提到的所有MIL池操作符都有一个明显的缺点，即它们是预定义的，不可训练的。因此，需要一个灵活的、自适应的MIL池化处理能够通过调整来实现更好的结果。

本文提出了使用实例的加权平均（低维嵌入），其中权重由神经网络确定，并且权重之和必须为1。本文提出了以下的MIL池：

$z=\sum^{K}_{k=1}\alpha_k h_k$

其中：

$\alpha_k=\frac{exp\left\{W^T tanh(Vh^T_k)\right\}}{\sum^{K}_{j=1}exp\left\{W^Ttanh(Vh^T_j)\right\}}$

其中 $W \in R^{L \times 1}$ 和 $V\in R^{L \times M}$ 都是参数。此外，我们利用双曲正切函数tanh(·)来包含适当梯度流的负值和正值。

4.5 Gated attention mechanism

tanh(·)在学习复杂的关系时可能是低效的。因此本文提出了使用gating mechanism：

$\alpha_k = \frac{exp\begin{Bmatrix} W^T(tanh(Vh^T_k) \bigodot sigm(Uh^T_k)) \end{Bmatrix}}{\sum_{j=1}^{K} exp\begin{Bmatrix} W^T(tanh(Vh^T_j) \odot sigm(Uh^T_j)) \end{Bmatrix}}$