Authors
Zongwei Zhou, Vatsal Sodha, Md Mahfuzur Rahman Siddiquee, Ruibin Feng, Nima Tajbakhsh, Michael B. Gotway, and Jianming Liang
github link https://github.com/MrGiovanni/ModelsGenesis
https://www.youtube.com/watch?v=5W_uGzBloZs&feature=youtu.be (youtube作者解释)
Motivation
从自然图像到医学图像的转移学习已经成为医学图像分析中最实用的深度学习范式之一。然而,为了适应这种模式,最突出的成像方式(如ct和mri)中的3d成像任务必须在2d中重新制定和解决,丢失丰富的3d解剖信息,不可避免地影响性能,一般而言,3D训练效果会比2D好。3D预训练模型的缺乏是文章的一个出发点。但是本人之前用过腾讯的MedicalNet,好似没啥效果啊啊啊啊啊啊,链接如下
MedicalNet https://github.com/Tencent/MedicalNet
主要思想(Generic Autodidactic Models, nicknamed Models Genesis)
既然缺乏3D预训练模型,那如何利用手头的数据自己生成一个预训练模型?很自然的想到用autoencoder,通过图像重建的过程让encoder, decoder 网络学习特征,之后再利用训练好的encoder, decoder 来做分割或分类任务。这个思路早已有之,但作者创新的一点是,encoder输入的不是原图,而是引入了3类数据增强方法对影像进行变换,强迫Encoder, Decoder将变换后的影像恢复成原图,使得网络学习到数据的形状特征,纹理特征以及上下文特征。网络结构如图所示
为了便于说明,作者使用了2D的图像和网络结构。实际运行 3D的。网络的输入是patch X的4种变形,(I) non-linear, (II) local-shuffling, (III) out-painting, and (IV) in-painting,其中,3和4是互斥的。经过这几种变形之后得到。作者认为网络能够学习到appearence通过non-linear,能够学习到texture通过loca pixel shuffling,能学习到上下文通过out/in-painting。
模型具有如下几个优点:
- 兼容性强, 能学习到appearence,texture,context等信息
- 可拓展性强,使用相对少的GPU资源,能很容易的拓展到其它方法,
- 泛化性能好,能够做很多的task,包括:classification(只用encoder),diseases (e.g., nodule, embolism, tumor), organs (e.g., lung, liver, brain), and modalities (e.g., CT, X-ray, MRI)等
实验结果