3D分割模型分享~MagicNet,3DUnet,TimeSformer

最新推荐文章于 2024-06-11 15:21:45 发布

无敌小霸王782

最新推荐文章于 2024-06-11 15:21:45 发布

阅读量1.3k

点赞数

文章标签： 3d 深度学习 python

本文链接：https://blog.csdn.net/weixin_63670364/article/details/132888448

版权

3D分割模型分享~MagicNet,3DUnet,TimeSformer

1、背景介绍

3D卷积是一种在三维空间中进行卷积操作的方法，它可以捕捉三维数据的空间和时间特征，从而提高深度学习模型的性能。3D卷积的应用领域非常广泛，包括视频分析、医学图像处理、三维点云处理等。本文将介绍3D卷积的原理、发展和优势，并分享一些3D卷积的经典模型，其中重点介绍了医学图像处理中的两种分割模型。

2、模型分享

2.1、MagicNet

2.1.1 论文地址

论文地址：https://arxiv.org/abs/2212.14310

代码地址：https://github.com/DeepMed-Lab-ECNU/MagicNet

2.1.2 优劣分析

优势：

MagicNet是一个新颖的半监督多器官分割师生模型，主要针对的是医学领域的数据，它主要提出了两个创新点，一是传统的半监督分割方法通常只利用了未标记图像的全局信息，忽略了局部信息和跨图像的信息，导致伪标签的质量不高，分割结果不准确。MagicNet通过分区和恢复N3个小立方体交叉和内部标记和未标记图像，可以增强局部信息和跨图像信息的利用，提高未标记图像的语义一致性和小器官的可见性。二是传统的半监督分割方法通常使用教师模型或学生模型中的一个来生成伪标签，但这样会忽略了两个模型之间的差异和互补性，导致伪标签的质量不稳定，分割结果不鲁棒。MagicNet通过混合立方体表示来提高伪标签细化的质量，该方法通过混合教师分支和学生分支学习到的表示以合并局部属性来提高伪标签的质量。

劣势：

MagicNet是一个半监督的分割模型，它依赖于少量的标记图像来生成伪标签，但是这些伪标签可能存在噪声和不准确的情况，导致模型的泛化能力受到影响。MagicNet使用了分区和恢复的策略来增强局部信息和跨图像信息，但是这样也会增加了计算复杂度和内存消耗，对于大规模的数据集和高分辨率的图像，可能会遇到性能瓶颈。MagicNet使用了混合立方体表示来提高伪标签细化的质量，但是这种方法也有一定的局限性，比如不能处理不同大小和形状的器官，不能适应不同的分割任务。

2.1.3 方法介绍

1、魔方的分区和恢复

医学成像专家揭示局部属性（例如纹理、光泽和边界平滑度）是识别医学图像中微小器官等目标的关键要素。受此启发，MagicNet提出了图像内分区和恢复模块来学习立方体局部表示。假设小批量 $B$ 包含 $X^B∈R^{n\times W\times H\times L}$ ，取 $n$ =2，并且 $B$ 包含一张标记图像 $X^l$ 和一张未标记图像 $X^u$ ，然后将 $X^l$ ， $X^u$ 分别划分为 $N^3$ 个魔方块 ${x_j^l\}_{j=1}^{N^3}$ 和 ${x_j^u\}_{j=1}^{N^3}$ ，其中 $X_j^l$ ， $X_j^u∈R^{W/N\times H/N\times L/N}$ 。跨图像分区和恢复为了鼓励标记和未标记图像相互学习全面的通用语义，模型将这些立方体混合在小批量中的所有标记和未标记图像中。如下图所示，这些立方体 $X_j^l$ 和 $X_j^u$ 被混合成两个打乱的魔方，同时保持其原始位置，从而产生两个具有混合魔方 $X_0^{mix}， X_1^{mix}∈R^{W\times H\times L}$ 的插值图像。然后将混合图像输入学生网络，然后送入 softmax 层，获得预测图 $P_0^{mix}， P_1^{mix}∈R^{C\times W\times H\times L}$ ，其中 C 表示班级数量。接下来，我们通过将魔方恢复到原始位置，从 $P_0^{mix}$ 和 $P_1^{mix}$ 中恢复 $P_{cross}^{l}， P_{cross}^{u}∈C\times R^{W\times H\times L}$ 。同时，除了跨图像的分区和恢复之外，模型还设计了针对单图像的图像内分区和恢复分支，它可以更好地考虑局部特征并学习局部属性来识别目标。对于 $X^l$ ，将分割后的第 $j$ 个立方体送入学生网络和softmax，可以得到立方体预测 $P_j^l∈R^{C\times W/N\times H/N\times L/N}$ ，最后通过将 N3 个立方体预测图混合回其原始位置来恢复魔方 $P^l$ ，如下图上部所示。同理，对 $X^u$ ，执行同样的操作得到 $P^u$ 。

在这里插入图片描述

2、立方体伪标签混合

由于教师网络以原始体积作为输入，并且更注重学习头类中的大器官，因此由于缺乏局部属性学习，实际上属于尾类的体素可能会被错误地预测为头类体素。为了有效增加体素预测到尾类的机会，我们设计了一个立方体伪标签混合模块，它将原始伪标签与立方体特征混合。具体来说，从教师网络获取的 $X^u$ 的图像级预测被定义为 $P^u_T=f(X^u;\theta)$ ，其中 $\theta$ 是教师网络的参数，从学生网络获取的重建立方体表示为 $P^u_{in}$ ，如上所述，立方体特征更注重学习局部属性，这对于微小器官很重要。因此，MagicNet提出了一种分布感知混合策略，通过等式将大器官更改为小器官类别，从而纠正大器官可能不正确的伪标签。公式为：
$P^u_{blend}=(1-R(Ω))\bigodot P^u_T+R(Ω)\bigodot P_{in}^u$
其中 $\bigodot$ 表示逐元素乘法， $Ω∈R^{W\times H\times L}$ 是分布感知权重图。为了获得权重图，我们首先在训练期间学习类分布 $V$ 。假设 $V∈R^C$ 是一个向量， $V=\{V_0,...V_{C-1}\}$ ，其元素 $V_C$ 表示属于第 $C + 1$ 个器官的体素数量，通过在之前的几次迭代中计算体素 $w . r . t .$ 伪标签的数量来累积。令 $\widetilde{Y}_m^u$ 表示位置 $m$ 上体素的伪标签。权重图上每个空间位置 $m$ 的值$ Ω_m∈R^1$推导为：
$Ω_m=\sum_{c=0}^{C-1}\dfrac{I(\widetilde{Y}_m^u=c)V_c}{maxV}$
复制 $Ω$ $C + 1$ 次来得到 $R(Ω)∈R^{(C+1)\times W\times H\times L}$ 。如下图所示，如果 $m$ 上的伪标签 $\widetilde{Y}_m^u$ 被错误的指定为大器官，则会指定一个大的 $Ω_m$ 以确保立方体表示可能得到修正。

在这里插入图片描述

2.1.4 模型框架

MagicNet是一个半监督的多器官分割模型，它利用了先验的解剖学知识来指导数据增强和伪标签的生成。它由两个部分组成：教师模型和学生模型。

教师模型：教师模型是一个复杂的神经网络，它通过使用魔方来生成伪标签来指导学生模型的学习教师模型的优点是它可以利用大量的无标签数据来提高分类的准确性和泛化能力教师模型有两个特点：一是魔方的分区，这在上面方法介绍中有详细阐述，二是EMA Update，即指数移动平均，它用来更新教师模型中的参数，使其能够跟踪学生模型的学习进度。

学生模型：学生模型是一个轻量级的神经网络，它通过使用教师模型生成的伪标签来学习图像分类的任务。学生模型的任务是通过魔方分区输入的混合数据中提取特征，将其输入到分类头中，并输出一个预测向量，表示图像属于不同类别的概率，同时计算预测向量和教师模型生成的伪标签之间的交叉熵损失，优化学生模型的参数。

cube wise pseudo label blending：预测向量和位置真值之间的KL散度损失用于优化学生模型的参数。位置真值是由教师模型生成的伪标签和小立方体的相对位置组合而成的。伪标签是由教师模型的输出和教师模型小立方体的输出混合而成的，这个混合的过程就是cube wise pseudo label blending。这个混合的目的是为了融合局部属性，提高伪标签的质量。

在这里插入图片描述

2.1.5 代码复现

2.1.5.1 数据集介绍

BTCV数据集是一个用于腹部器官分割的标准化数据集，它包含了30名受试者的门静脉期对比增强的CT扫描图像，以及13个器官的人工标注。这些器官包括：肝脏、胆囊、胰腺、脾脏、肾脏、肾上腺、胃、食管、肠、膀胱、子宫、卵巢、前列腺。BTCV数据集是由Vanderbilt大学医学中心的放射科医生和译员创建的，旨在为腹部器官分割的研究提供一个公开的、高质量的、多中心的平台。BTCV数据集的特点是：

图像的分辨率为512×512像素，层厚为1至6mm，覆盖了腹部的大部分区域。
图像的对比度和噪声水平与临床扫描相一致，反映了真实的挑战和变化。
标注的准确性和一致性经过了严格的质量控制和验证，保证了数据的可靠性和可比性。

BTCV数据集已经在多个国际会议和期刊上被广泛使用，例如WACV、MICCAI、IEEE TMI等。BTCV数据集对于推动腹部器官分割的技术进步和临床应用具有重要的意义。代码的github中有数据集的下载地址，论文中使用的是.h5后缀的文件，这是论文作者已经处理好了的BTCV文件。

2.1.5.2 实验结果分析

整理好实验代码之后，得到的实验结果如下所示，从实验结果可以看出根据结果，平均Dice系数为0.707，说明模型的性能较好。其中，右肾的Dice系数最高，为0.916，而食管的Dice系数为0，说明模型在分割食管时表现不佳。此外，脾脏，左肾肝脏，主动脉，下腔静脉的Dice系数均在0.5以上，说明模型在分割这些器官时表现良好。而胆囊的Dice系数最低，仅为0.542，说明模型在分割胆囊时表现最差。

iteration 70000, average DSC: 0.707, spleen: 0.888, r.kidney: 0.916, l.kidney: 0.903, gallbladder: 0.542, esophagus: 0.000, liver: 0.940, stomach: 0.695, aorta: 0.862, inferior vena cava: 0.829portal vein and splenic vein: 0.696, pancreas: 0.707, right adrenal gland: 0.597, left adrenal gland: 0.610
Final Average DSC:0.7066, HD95: 25.9175, NSD: 0.6888, ASD: 6.9687
spleen: 0.8877+-0.0751, 52.4263+-69.6176, 0.8086+-0.1139, 11.3063+-11.1074, 
r.kidney: 0.9163+-0.0238, 23.8785+-45.0955, 0.8919+-0.0693, 6.7104+-12.6532, 
l.kidney: 0.9033+-0.0513, 7.7429+-10.6430, 0.8827+-0.0987, 2.6617+-3.1358, 
gallbladder: 0.5419+-0.2643, 70.1704+-79.0898, 0.5029+-0.2578, 21.7699+-29.9228, 
esophagus: 0.0000+-0.0000, 0.0000+-0.0000, 0.0000+-0.0000, 0.0000+-0.0000, 
liver: 0.9401+-0.0210, 42.0365+-40.0238, 0.7798+-0.1304, 11.5438+-10.6737, 
stomach: 0.6954+-0.1516, 85.9543+-52.1322, 0.4771+-0.1551, 24.6225+-18.7604, 
aorta: 0.8621+-0.0922, 14.5273+-18.0845, 0.8653+-0.1362, 1.2741+-1.0452, 
ivc: 0.8289+-0.0452, 6.3447+-2.4989, 0.7721+-0.0801, 2.1373+-1.5167, 
portal and splenic vein: 0.6956+-0.0736, 7.3293+-2.5336, 0.7624+-0.0784, 1.2310+-0.4871, 
pancreas: 0.7073+-0.1177, 6.6344+-3.7773, 0.6478+-0.1295, 2.2652+-1.3864, 
right adrenal gland: 0.5965+-0.0643, 4.1695+-1.8956, 0.7948+-0.0797, 2.1184+-2.9403, 
Left adrenal gland: 0.6101+-0.0943, 15.7140+-18.6932, 0.7690+-0.1079, 2.9522+-3.0818

2.1.5.3 遇到的问题

在跑代码的时候我也遇到了一些问题，在这里也给大家分享一下，防止重复踩坑。

一是在train_main_btcv中，记得修改数据集的路径。

在这里插入图片描述

二是在train_main_btcv中，多个GPU并行运行的时候报错了，我们把64,65行注释掉就行了。

在这里插入图片描述

三是在数据集加载中，我们需要在存放btcv_h5的同级目录下加一个btcv.txt文件，文件里面的内容即是所有数据集的文件名，如下所示，这样代码才能加载数据集，不然就会报错，显示加载了0个samples。如果是在服务器上跑代码，则这个文件要写到服务器上去。

0001.h5
0002.h5
0003.h5
0004.h5
0005.h5
0006.h5
0007.h5
0008.h5
0009.h5
0010.h5
0021.h5
0022.h5
0023.h5
0024.h5
0025.h5
0026.h5
0027.h5
0028.h5
0029.h5
0030.h5
0031.h5
0032.h5
0033.h5
0034.h5
0035.h5
0036.h5
0037.h5
0038.h5
0039.h5
0040.h5

2.2、3DUnet

2.2.1 论文地址

论文地址：https://arxiv.org/pdf/1606.06650.pdf

代码地址：https://github.com/lee-zq/3DUNet-Pytorch

2.2.2 优劣分析

优势：

	3DUnet是一个基于3D卷积神经网络的全自动器官分割模型，主要针对的是医学领域的数据，它主要提出了两个创新点，一是使用了**3D卷积**来处理3D图像，而不是将3D图像切分成2D图像，这样可以保留图像的空间信息，提高分割的精度和鲁棒性。二是使用了**U-Net**的结构，即编码器-解码器的结构，其中编码器用于提取图像的特征，解码器用于恢复图像的分辨率，并且在每一层都使用了跳跃连接，将编码器和解码器的特征进行融合，这样可以增强图像的细节信息，提高分割的质量。

劣势：

3DUnet是一个全监督的分割模型，它依赖于大量的标记数据来训练，但是在医学领域，标记数据的获取是非常困难和昂贵的，因此模型的泛化能力受到限制。3DUnet使用了3D卷积来处理3D图像，但是这样也会增加了计算复杂度和内存消耗，对于大规模的数据集和高分辨率的图像，可能会遇到性能瓶颈。3DUnet使用了U-Net的结构，但是这种结构也有一定的局限性，比如不能处理不同大小和形状的器官，不能适应不同的分割任务。

2.2.3 方法介绍

1、3D卷积

3D卷积是一种用于处理3D图像的卷积操作，它可以在三个维度上对图像进行滑动窗口，从而提取图像的空间信息。3D卷积的优点是它可以保留图像的空间信息，提高分割的精度和鲁棒性。3D卷积的缺点是它会增加了计算复杂度和内存消耗，因此需要使用更大的GPU或者更小的批量大小来训练。

2、U-Net结构

U-Net结构是一种编码器-解码器的结构，它由两个部分组成：编码器和解码器。编码器用于提取图像的特征，它由多个卷积层和池化层组成，每一层都会降低图像的分辨率，但是增加图像的通道数，从而提取图像的高层语义信息。解码器用于恢复图像的分辨率，它由多个卷积层和上采样层组成，每一层都会增加图像的分辨率，但是减少图像的通道数，从而恢复图像的细节信息。在每一层，编码器和解码器的特征都会通过跳跃连接进行融合，这样可以增强图像的细节信息，提高分割的质量。U-Net结构的优点是它可以有效地利用图像的多尺度信息，提高分割的精度和鲁棒性。U-Net结构的缺点是它不能处理不同大小和形状的器官，不能适应不同的分割任务。

2.2.4 模型框架

3DUnet是一个基于3D卷积神经网络的全自动器官分割模型，它利用了U-Net的结构来提取和融合图像的多尺度信息。它由两个部分组成：编码器和解码器。

编码器：编码器由四个卷积块组成，每个卷积块包含两个3D卷积层和一个3D最大池化层，每个卷积层后面都有一个批量归一化层和一个ReLU激活层，每个卷积块的输出都会通过跳跃连接传递给解码器。编码器的作用是提取图像的高层语义信息，降低图像的分辨率。

解码器：解码器由四个卷积块组成，每个卷积块包含一个3D上采样层和两个3D卷积层，每个卷积层后面都有一个批量归一化层和一个ReLU激活层，每个卷积块的输入都会与编码器的跳跃连接进行拼接。解码器的作用是恢复图像的细节信息，增加图像的分辨率。

输出层：输出层是一个3D卷积层，它将解码器的最后一个卷积块的输出映射到目标类别的数量，然后使用softmax函数得到每个体素属于不同类别的概率，从而得到分割结果。

在这里插入图片描述

2.2.5 代码复现

2.2.5.1 数据集介绍

LiTS数据集是一个肝脏肿瘤分割的基准数据集，它由来自世界各地的不同临床机构提供的200个CT扫描图像和对应的分割标签组成，其中130个用于训练，70个用于测试。数据集的目的是评估和比较不同的肝脏肿瘤分割方法的性能和鲁棒性。数据集的特点是包含了不同的肿瘤类型（原发性和继发性），不同的肿瘤大小和外观，以及不同的病灶与背景的对比度（高密度和低密度）。数据集的评价指标是Dice系数和体素级别的敏感度和特异度，分别衡量分割结果的准确性和完整性。数据集的下载和处理可以参考这篇博客：https://github.com/lee-zq/3DUNet-Pytorch

2.2.5.2 实验结果分析

模型评价指标是Dice系数。从结果来看，模型在训练集和验证集上的损失函数都是逐渐下降的，说明模型是在学习和优化的。模型在训练集和验证集上的Dice系数都是逐渐上升的，说明模型是在提高分割的准确性和完整性的。模型在第38个epoch达到了最好的性能，Dice系数为0.9047，这与论文中报告的结果相近，说明模型是有效的。模型出现了早停现象，小编认为是模型已经收敛，在之后的epoch参数没有更新，满足早停的条件，代码就停止运行了。

=======Epoch:67=======lr:1.0000000000000002e-07
100%|██████████| 44/44 [00:54<00:00,  1.24s/it]
100%|██████████| 23/23 [00:08<00:00,  2.67it/s]
Train: OrderedDict([('Train_Loss', 0.05), ('Train_dice_liver', 0.8961)])
Valid: OrderedDict([('Val_Loss', 0.0487), ('Val_dice_liver', 0.8947)])
Best performance at Epoch: 38 | 0.9047
=======Epoch:68=======lr:1.0000000000000002e-07
100%|██████████| 44/44 [00:54<00:00,  1.25s/it]
100%|██████████| 23/23 [00:08<00:00,  2.62it/s]
Train: OrderedDict([('Train_Loss', 0.0433), ('Train_dice_liver', 0.905)])
Valid: OrderedDict([('Val_Loss', 0.0486), ('Val_dice_liver', 0.8948)])
Best performance at Epoch: 38 | 0.9047
=> early stopping

2.3、TimeSformer

2.3.1 论文地址

论文地址：https://arxiv.org/pdf/2102.05095.pdf

代码地址： https://github.com/facebookresearch/TimeSformer

2.3.2 优劣分析

优势：

TimeSformer是一个基于自注意力机制的视频理解模型，主要针对的是视频分类和动作识别的任务，它主要提出了两个创新点，一是使用了分割时空自注意力来处理视频，而不是使用3D卷积，这样可以有效地捕捉视频中的长距离依赖关系，提高视频的语义表达能力。二是使用了Transformer的结构，即编码器-解码器的结构，其中编码器用于提取视频的特征，解码器用于生成视频的标签，并且在每一层都使用了分离的时空注意力，将时间注意力和空间注意力分别应用在每个块内，这样可以增强视频的时空信息，提高视频的分类准确性。

劣势：

TimeSformer是一个基于自注意力机制的视频理解模型，它依赖于大量的标记数据来训练，但是在视频领域，标记数据的获取是非常困难和昂贵的，因此模型的泛化能力受到限制。TimeSformer使用了时空自注意力来处理视频，但是这样也会增加了计算复杂度和内存消耗，对于大规模的数据集和高分辨率的视频，可能会遇到性能瓶颈。TimeSformer使用了Transformer的结构，但是这种结构也有一定的局限性，比如不能处理不同大小和形状的视频，不能适应不同的视频理解任务。

2.3.3方法介绍

1、分割时空自注意力

时空自注意力是一种用于处理视频的自注意力机制，它可以在时域和空域分别上对视频进行自注意力计算，从而提取视频的时空信息。时空自注意力的优点是它可以有效地捕捉视频中的长距离依赖关系，提高视频的语义表达能力。时空自注意力的缺点是它会增加了计算复杂度和内存消耗，因此需要使用更大的GPU或者更小的批量大小来训练。时域计算就是在计算某一块的注意力时，会同时考虑不同切片的同一位置的块，而空域计算就是在计算某一块的注意力时，会同时考虑改块所在切片的所有块。图中的第三列就是时域和空域的分割时空自注意力。

在这里插入图片描述

2、Transformer结构

Transformer结构是一种编码器-解码器的结构，它由两个部分组成：编码器和解码器。编码器用于提取视频的特征，它由多个自注意力块组成，每个自注意力块包含一个多头自注意力层和一个前馈网络层，每个层后面都有一个残差连接和一个层归一化层，每个自注意力块的输出都会通过跳跃连接传递给解码器。解码器用于生成视频的标签，它由多个自注意力块组成，每个自注意力块包含一个多头自注意力层，一个多头交叉注意力层和一个前馈网络层，每个层后面都有一个残差连接和一个层归一化层，每个自注意力块的输入都会与编码器的跳跃连接进行拼接。Transformer结构的优点是它可以有效地利用视频的多尺度信息，提高视频的分类准确性和鲁棒性。Transformer结构的缺点是它不能处理不同大小和形状的视频，不能适应不同的视频理解任务。

2.3.4 模型框架

TimeSformer是一个基于自注意力机制的视频理解模型，它利用了Transformer的结构来提取和融合视频的多尺度信息。它由两个部分组成：编码器和解码器。

编码器：编码器由12个自注意力块组成，每个自注意力块包含一个多头自注意力层和一个前馈网络层，每个层后面都有一个残差连接和一个层归一化层，每个自注意力块的输出都会通过跳跃连接传递给解码器。编码器的输入是一个视频序列，它首先被划分为多个帧级别的块，然后被投影到一个高维空间，再加上一个位置编码，最后被送入编码器。编码器的作用是提取视频的时空特征，降低视频的维度。

解码器：解码器由12个自注意力块组成，每个自注意力块包含一个多头自注意力层，一个多头交叉注意力层和一个前馈网络层，每个层后面都有一个残差连接和一个层归一化层，每个自注意力块的输入都会与编码器的跳跃连接进行拼接。解码器的输入是一个标签序列，它首先被投影到一个高维空间，再加上一个位置编码，最后被送入解码器。解码器的作用是生成视频的标签，增加视频的维度。

输出层：输出层是一个线性层，它将解码器的最后一个自注意力块的输出映射到目标类别的数量，然后使用softmax函数得到每个视频属于不同类别的概率，从而得到分类结果。整个模型的计算过程如下图1所示，下图2的第三列为模型的框架结构图。

在这里插入图片描述

3、总结

医学影像的3D分割是一种重要的计算机视觉任务，它可以帮助医生进行更准确的诊断和治疗。在本文中，我们介绍了三种最新的3D分割模型，它们分别是半监督多器官分割师生模型MagicNet，基于卷积神经网络的3D U-Net，和基于Transformer的TimeSformer。这三种模型都有各自的优势和特点，它们都能够有效地处理三维体积数据，捕获时空特征，并提高分割的精度和效率。我们通过分析这三种模型在的优缺点，对比这些模型在不同数据集上的性能，展示了它们在3D分割领域的潜力和挑战。我们希望本文能够为读者提供一个关于医学影像的3D分割的全面和深入的了解，以及对未来研究的启发。
确的诊断和治疗。在本文中，我们介绍了三种最新的3D分割模型，它们分别是半监督多器官分割师生模型MagicNet，基于卷积神经网络的3D U-Net，和基于Transformer的TimeSformer。这三种模型都有各自的优势和特点，它们都能够有效地处理三维体积数据，捕获时空特征，并提高分割的精度和效率。我们通过分析这三种模型在的优缺点，对比这些模型在不同数据集上的性能，展示了它们在3D分割领域的潜力和挑战。我们希望本文能够为读者提供一个关于医学影像的3D分割的全面和深入的了解，以及对未来研究的启发。

无敌小霸王782

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
3D分割模型分享~MagicNet,3DUnet,TimeSformer

3D卷积是一种在三维空间中进行卷积操作的方法，它可以捕捉三维数据的空间和时间特征，从而提高深度学习模型的性能。3D卷积的应用领域非常广泛，包括视频分析、医学图像处理、三维点云处理等。本文将介绍3D卷积的原理、发展和优势，并分享一些3D卷积的经典模型，其中重点介绍了医学图像处理中的两种分割模型。
复制链接

扫一扫