摘要
卷积神经网络因为其卷积核的固有属性,其在远程建模方面存在着较大的问题。这可能导致对可变大小的肿瘤进行分割时存在不足。另一方面,Transformer在多个领域在捕获远程依赖信息方面表现出了出色的能力。
本文提出了一个新的分割模型,称为Swin UNETR,具体来说,3D脑肿瘤语义分割被重新定义为一个序列到序列的预测问题,其中多模态输入数据被投影到一个1D嵌入序列当中,并用作分层Swin Transformer的输入作为编码器。Swin Transformer编码器利用移位窗口计算自注意力,以5种不同分辨率提取特征,并通过跳跃连接在每个分辨率上连接到基于FCNN的解码器。
在本文中提出的网络称为Swin UNETR结构。它利用一个带有Swin Transformer的U型网络作为编码器,并通过跳跃连接将其以不同分辨率连接到基于CNN的编器
Swin UNETR网络结构
网络结构如下图所示:
编码器
模型的输入X是一个分辨率为(H',W',D')尺寸为H'*W'*D'*S的Token。首先利用一个个Patch创建一个尺寸为