【AAAI2023】利用旧知识持续学习医学图像中的新类别

论文标题: Leveraging Old Knowledge to Continually Learn New Classes in Medical Images

论文链接:https://arxiv.org/abs/2303.13752

代码:https://github.com/EvelynChee/LO2LN

引用:Chee E, Lee M L, Hsu W. Leveraging Old Knowledge to Continually Learn New Classes in Medical Images[J]. arXiv preprint arXiv:2303.13752, 2023.

d03e9185e7714f057ed10706b5a4a451.png

导读

类增量持续学习是开发人工智能系统的核心一步,该系统可以通过学习新概念来不断适应环境的变化,而不会忘记以前学过的概念。这在医学领域尤其需要,因为它需要不断地从新的输入数据中学习,以便对一组扩大的疾病进行分类。在这项工作中,我们关注于如何利用旧的知识来学习新的类,同时避免灾难性遗忘。

我们提出了一个由两个主要组件组成的框架:

(1 )具有扩展表示的动态架构,以保留以前学习过的特征和适应新特征;

(2) 在两个目标之间交替的训练过程,以平衡新特征的学习,同时保持模型在旧类上的性能。

在多个医学数据集上的实验结果表明,我们的解决方案能够在类的准确性和遗忘方面取得优于最先进的基线的性能。

本文方法

在类增量持续学习中,该模型需要从数据流中学习。每个增量步骤 t ∈ [1..T],定义 Yt 为新类别的集合,Dt 为包含样本 (x, y) 的数据集,其中 x 表示输入图像,y ∈ Yt 是相应的标签。目标是最大化直到步骤 t 的所有已见类别的总体分类准确性,即

587524922b844773ba987c132df4b891.png

我们提出的框架利用先前学到的特征来学习新类别。采用动态扩展网络以容纳新特征而不损害旧特征。为了保持对先前见过的类别的性能,还采用了正则化损失和数据回放策略。此外,为了处理高度倾斜的类别分布,采用了成本敏感学习,并对来自欠表示的旧类别的样本施加更高的惩罚。

模型架构
d2aa7aec43d7428682a0a4f471466233.png

在模型架构方面,图 3 展示了提出的动态架构在增量步骤 t 的细节。有三个主要组件:低层特征提取器 L,一组高层特征提取器和一个统一的分类器。

低层特征提取器 L,

89cbbc5e46ccea7b0fb04e73e9e5172b.png
参数化,在整个学习过程中是共享的。

每个高层特征提取器

435dbcfa3eb1dfb5072eeea28de0cd78.png
具有相同的架构,接收来自 L 处理的输入,并建立在低层特征的基础上学习新类别的区分特征。每个步骤 t 都会添加一个新的高层特征提取器 Hk,由 29b06caec13b76526226b409a7e5dea8.png
参数化。通过允许低层特征提取器在各个任务之间共享,该方法鼓励高层特征提取器重用相似的特征。输出是维度为 d 的向量 3566324c5183eae9eb261bdce9c2a78a.png
。为了减轻遗忘,冻结了旧参数集 40bfd2a4fda0b05ad5106fbfbb912cfc.png

统一的分类器

35d3dc48238705a6ea1e939693f1f1cb.png
是一个单层,其权重矩阵 Wt 包括每个类别 38f48bb48bae86c9f017c180f40a7d53.png
的向量 wt,i。这些向量由上一步 t − 1 的权重矩阵扩展而来,以逐行容纳新类别 Yt 和逐列包括来自 Ht 的新特征。

假设

4ec386cd863ffb0684b483e6bb673cae.png
是输入图像 x 所有高层特征提取器的连接输出,则可以估计输入 x 属于类别 i 的概率如下: 5cc8f2621a0bccc82e0ab330fc985123.png

其中 η 是可学习的标量,sim(·) 是两个向量之间的余弦相似度

训练过程

遵循数据回放策略,在每个增量步骤 t > 1 中,我们的训练样本 St 包括传入的数据集 Dt 和内存中每个已见类别

bf44a7eb25db7ec822240512216f0b7e.png
的有限数量的样本,即 cb4e876d678aa43c5dc283e26ecb9b9b.png
,我们的目标是在保持旧参数 7f27b1ef75fec71725cbe242363269b9.png
固定的同时,使用 St 优化新的模型参数 8650fde1706c06f57a4ab50023874677.png
,以保留先前学到的知识。我们设计了两个目标 e8422293206219f6a03c41b4156f0102.png
,并在每个训练步骤中交替使用它们。目标 L new 专注于学习新传入数据集的区分特征,包括分类损失、辅助损失、蒸馏损失和边缘损失,具体如下: 3523ff16653ce2c05e20ba555340c128.png

L old 侧重于对欠表示的旧类别进行处理,通过对错误分类的样本施加更高的惩罚,不需要辅助损失。具体表达如下:

22f209a0b4dbb6eb73137dbfeedca94e.png

分类损失

与常用的交叉熵损失不同,由于新旧类别之间的不平衡会导致严重的遗忘问题,我们采用了类平衡焦点损失(Cui et al. 2019)。我们的分类损失定义如下:

0877dceb060d8fdbb654be34d4fc2d69.png

辅助损失

为了学习新类别的区分特征,我们引入了一个辅助损失。它同样使用类平衡焦点损失,但仅关注由 Ht 提取的特征 ht,以及类别 y 对应的权重向量

69ccdf693fcd97b5bd58732abe6a0e16.png
。具体而言,辅助损失定义如下: 3c6e2b1033a57dac99204b931002beea.png

蒸馏损失

由于我们的架构旨在冻结先前学到的特征,我们使用 logits-level 蒸馏损失(Rebuffi et al. 2017),通过最小化模型在先前步骤预测的旧类别 Y[1:t−1] 的概率之间的 Kullback–Leibler 散度来实现,具体如下:

d262822d54b0076ecb583f4d9a4d17ca.png

边际损失

由于训练集以新类别为主导,预测可能会偏向这些新类别。为了减少这种偏差,我们使用边际排名损失,使得从内存 Mt−1 中提取的样本具有至少 m 的边缘,将其与所有新类别的真实类别分离。给定一个训练样本 (x, y),设 K 为对应的预测置信度最高的 k 个新类别的集合。然后,损失定义为:

0af0e5b2bd2607a0efef87ecbb28eaa4.png

算法1给出了我们提出的训练方法的详细信息。

在第1行,使用 D1 对低层特征提取器 L、高层特征提取器 H1 和分类器 F1 进行训练,只使用分类损失,因为没有旧知识需要保留。

对于每个后续步骤 t,架构会通过添加一个新的高层特征提取器 Ht 和一个更大的分类器 Ft 进行扩展(第3行)。

第4行选择旧样本进行数据回放 Mt−1,而第5行将这些样本与 Dt 合并以获取训练数据集 St。

训练过程(第6-9行)通过先优化 L new,然后优化 L old 进行重复。

602d47a818cdfd55afc2c7d663fc9963.png

实验

实验结果

与其他方法的比较:

de83a0c81c8154a678c28c5124fe7671.png
2b226bb34cb05acad70fe4d8be531734.png
25b31cb83ea054d01dea4d3f1af42032.png
消融实验
07215edd0a8d658075d4e69aa4243a15.png

结论

在这篇论文中,我们提出了一种针对医学领域的类增量持续学习框架,利用先前学到的特征获取新知识。通过采用动态架构和不断扩展的表示,它能够在学习新特征的同时保留旧特征。我们通过使用两个目标轮流训练模型,一个专注于从新进数据中学习,而另一个强调欠表示的旧类别,实现了在旧类别和新类别性能之间的良好平衡。

在三个医学图像数据集上的实验证明了我们提出的方法在性能上超过了现有技术基线,包括那些具有高度倾斜分布的数据集。未来的工作将包括研究在引入新类别时扩展模型的需求,并开发一个度量标准来量化添加特征提取器分支的贡献。

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

201888b79782d2d5bfb91e4935362ffb.jpeg

### 关于2025年AAAI会议中的医学图像论文与主题 #### 医学图像处理技术的发展趋势 近年来,随着人工智能技术的进步,特别是深度学习方法的应用,在医学图像分析领域取得了显著进展。这些进步不仅提高了诊断准确性,还促进了个性化医疗的发展[^1]。 #### 主要研究方向 在即将举行的2025年度美国人工智能协会(AAAI)会议上,预计会有大量关于医学影像的研究成果展示。具体来说: - **疾病检测与分**:利用卷积神经网络(CNNs)和其他先进的机器学习算法来提高早期癌症筛查等任务的效果。 - **分割与定位**:开发更精确的技术用于自动识别器官边界以及病变区域的位置信息。 - **多模态融合**:探索如何有效地结合不同型的成像数据(如MRI、CT扫描),从而获得更加全面的理解患者状况的方法。 - **生成对抗网络(GAN)**及其变体被广泛应用于合成高质量的虚拟病例样本或者修复低质量的真实图片。 ```python import tensorflow as tf from tensorflow.keras import layers def create_cnn_model(input_shape=(256, 256, 3)): model = tf.keras.Sequential([ layers.Conv2D(32, (3, 3), activation='relu', input_shape=input_shape), layers.MaxPooling2D((2, 2)), layers.Flatten(), layers.Dense(64, activation='relu'), layers.Dropout(0.5), layers.Dense(num_classes, activation='softmax') ]) return model ``` 此代码片段展示了构建一个简单的CNN模型来进行医学图像的一个例子。 #### 数据集和挑战赛 为了推动该领域的进一步发展,许多公开可用的数据集将会成为研究人员关注的重点对象;同时也会有一些针对特定疾病的预测竞赛活动举办,鼓励全球科学家共同解决实际临床问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值