Leveraging Unlabelled Data in Multiple-Instance Learning Problems for Improved Detection of
Parkinsonian Tremor in Free-Living Conditions文献笔记
基本信息
方法:半监督学习与多实例学习相结合
解决的问题:帕金森检测
采用了一款数据收集应用程序,该应用程序在拨打电话时“监听”手机的IMU传感器。使用了45个受试者的相对较小的数据集,他们具有标注,以及454个没有标注的受试者数据集。
关注问题:是否可以使用未标记的袋来改进多实例分类器
具体方法
1.半监督学习
目标是利用既包括标注数据也包括未标注数据的数据集Du来学习一个比只使用标注数据集Dl更准确的分类器。
VAT不是随机扰动x,而是计算将导致模型输出最大变化的扰动。D是分布散度度量,θ表示当前步骤的模型参数。
估计了后,通过最小化每个数据点的局部分布平滑(LDS)损失,鼓励模型沿着其方向平滑:
实证结果表明,与随机扰动的一致性相比,鼓励沿虚拟对抗方向(rvadv)的一致性可显著提高性能。
2.多实例学习
在多实例学习(MIL)中,我们再次给出了一组样本及其标签。不同之处在于,这里的每个样本本身都是一个包实例,由于包是一组无序的实例,其成员之间没有依赖关系,因此我们的分类器应该对包实例的顺序具有置换不变性。
3.半监督MIL
首先,我们将VAT扩展到多实例场景。为此,我们引入了包扰动的概念,包扰动是一个集合R=(r1,r2,…,rK),当将其元素添加到给定的包X时,会稍微扰动它。
所以,该框架的损失包括两个部分,第一项是标注的bag上计算的标准交叉熵损失,第二项是在未标注bag上计算的MI-LDS损失。
我们首先计算R=ξV上D的梯度,然后将每个元素归一化为单位长度
(1)变体1:规则(密集)扰动
此过程导致密集的包扰动,这意味着输入包X中的所有实例都将受到扰动。这种方法的一个有趣的变体是使Rvadv稀疏,即限制它,使其具有一个非零实例,通过扰动一个包实例而不是所有包实例,我们将得到更有意义的包扰动。这是因为在MIL中,改变单个实例的(未观察到的)标签可以改变袋子本身的标签,因为阳性袋子可以包含少至一个阳性实例。因此,在这种情况下,扰乱一个阳性袋的少数阳性实例可能比不加选择地扰乱其所有实例更有益。
(2)变体2:均匀概率稀疏扰动
如果简单地随机均匀地选择j,去覆盖k个实例,就会导致变体2。
(3)变体3:基于注意力的稀疏扰动
扰动形式的第三种变体是从多项式分布中采样j,其参数由注意力权重给出,因为{}定义了k个结果上的多项式分布,因为0≤≤1且k=1。
通过这种方式,非零索引j从每个包的不同分布中采样,在每个训练步骤中更有可能选择受到高度关注的实例(希望对应于关键实例)。
实验
1.数据集
(1)MINIST
(2)CIFAR-10:一个数据集,包含以下互斥类别的60000幅32x32彩色图像:飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车。
2.实验设置
为了从这些数据集中创建MIL问题,我们将把袋子定义为一组随机图像。对于MNIST,如果一个包至少包含一个数字“9”的图像(根据[44]),则该包将为正,而对于CIFAR-10,一个正包必须包含至少一个来自“卡车”类的图像。每个袋子的长度K从高斯分布N(Kmean,Kstd)中随机采样。阳性袋中的阳性样本数量从均匀分布U(1,K)中取样,而类别不平衡由参数p1控制。
为了提高效率,我们选择相对较小的Bag尺寸,因此在数据生成过程中设置Kmean=10和Kstd=2。此外,正类不平衡设置为每10个负类1个正类(p1=0.1),以模拟现实世界数据集中遇到的高度不平衡类的情况。
对于MNIST,我们使用LeNet-5模型作为嵌入函数φ,嵌入大小为M=800。然后通过L=128的注意力机制合并实例嵌入,并通过单个线性层将得到的包嵌入转换为类得分(转换ρ)。对于CIFAR-10,我们使用Conv-Small架构,其中M=192表示φ,L=128表示ρ。
有模型都使用Adam优化器进行了100个迭代的训练,基础学习率为0.001
3.实验结果
基于这些结果,我们看到MI-VAT可以带来巨大的性能改进,击败了基线和考虑的替代SSL方法。更具体地说,在MNIST实验中,我们观察到AUC比基线提高了24个点(稀疏注意力-L=50 U=200),而在CIFAR-10实验中我们观察到提高了17个点(稀少注意力-L=200 U=800)。
(表1:MINIST)
(表2:CIFAR-10)