Transformer
文章平均质量分 94
通街市密人有
https://github.com/LinY-ct
展开
-
Linking In-plane and Through-plane Transformers for Simultaneous CT Image Denoising and Deblurring
本文研究了三维低剂量计算机断层扫描成像技术。尽管在此背景下开发了各种深度学习方法,但它们通常侧重于2D图像,并分别执行低剂量去噪和超分辨率去模糊。同时进行平面内去噪和透平面去模糊是获得低辐射、高成像速度的高质量三维CT图像的重要手段,但目前研究较少。对于这项任务,一个简单的方法是直接训练一个端到端的3D网络。然而,它需要更多的训练数据和昂贵的计算成本。原创 2024-04-30 20:52:20 · 778 阅读 · 2 评论 -
VM-UNet: Vision Mamba UNet for Medical Image Segmentation
在医学图像分割领域,基于CNN和基于Transformer的模型都得到了广泛的探索。然而,CNN在远程建模能力方面表现出局限性,而Transformer则受到二次计算复杂性的阻碍。最近,以Mamba为例的状态空间模型(SSM)作为一种很有前途的方法出现了。它们不仅在远程相互作用建模方面表现优异,而且保持了线性计算复杂度。本文利用状态空间模型,提出了一种用于医学图像分割的U-shaped架构模型,命名为视觉Mamba UNet (VM-UNet)。原创 2024-02-23 19:56:49 · 2805 阅读 · 0 评论 -
VMamba: Visual State Space Model
卷积神经网络(CNN)和视觉Transformer(ViT)是视觉表征学习中最流行的两种基础模型。CNN在线性复杂度和图像分辨率方面表现出显著的可扩展性,而ViT在拟合能力方面超越了CNN,尽管它要与二次复杂度竞争。通过对全局感受野和动态权重的结合,ViT实现了卓越的视觉建模性能。这一观察结果促使我们提出一种新的架构,该架构继承了这些组件,同时提高了计算效率。为此,我们从最近引入的状态空间模型中汲取灵感,提出了在不牺牲全局感受野的情况下实现线性复杂性的视觉状态空间模型(VMamba)。原创 2024-01-28 15:21:51 · 1830 阅读 · 0 评论 -
A ConvNet for the 2020s
视觉识别的“咆哮的20年代”始于视觉Transformer(ViT)的引入,它很快取代了卷积神经网络,成为最先进的图像分类模型。另一方面,vanilla ViT在应用于一般的计算机视觉任务(如对象检测和语义分割)时面临困难。分层Transformer(例如,Swin Transformer)重新引入了几个卷积神经网络先验,使Transformer作为通用视觉主干实际上可行,并在各种视觉任务上表现出卓越的性能。原创 2024-01-15 17:27:44 · 903 阅读 · 0 评论 -
VISION TRANSFORMER WITH PROGRESSIVE TOKENIZATION FOR CT METAL ARTIFACT REDUCTION
高质量的计算机断层扫描(CT)在临床诊断中起着至关重要的作用,但金属植入物的存在会在CT图像上引入严重的金属伪影,阻碍医生的决策。以往许多金属伪影还原(MAR)的研究都是基于卷积神经网络(CNN)。最近,Transformer在计算机视觉方面展示了惊人的潜力。此外,基于Transformer的方法也被用于CT图像去噪。然而,这些方法在MAR中很少被探索。为了填补这一空白,我们提出了,据我们所知,第一个基于Transformer的MAR架构。我们的方法依赖于一个标准的视觉Transformer(ViT)。原创 2023-10-09 20:45:09 · 234 阅读 · 0 评论 -
All are Worth Words : A ViT Backbone for Diffusion Models
视觉transformer(ViT)在各种视觉任务中显示出了前景,而基于卷积神经网络(CNN)的U-Net在扩散模型中仍然占主导地位。我们设计了一种简单通用的基于ViT的架构(命名为U-ViT),用于使用扩散模型生成图像。U-ViT的特征是将包括时间、条件和噪声图像块在内的所有输入视为令牌,并在浅层和深层之间使用长跳跃连接。我们在无条件和类条件图像生成以及文本到图像生成任务中评估U-ViT,其中U-ViT即使不优于类似大小的基于CNN的U-Net,也具有可比性。原创 2023-04-18 23:47:48 · 1048 阅读 · 1 评论 -
Scalable Diffusion Models with Transformers
我们探索了一类新的基于Transformer结构的扩散模型。我们训练图像的潜在扩散模型,用一个对潜在补丁操作的Transformer取代常用的U-Net骨干网。我们通过Gflops测量的前向传递复杂性来分析扩散Transformer(dit)的可伸缩性。我们发现,具有较高gflop的dit(通过增加Transformer深度/宽度或增加输入令牌数量)始终具有较低的FID。原创 2023-01-09 20:50:23 · 4445 阅读 · 0 评论