【计算机视觉 | Transformer | 医学相关】arxiv 计算机视觉关于Transformer和医学相关的学术速递（9 月 21 日论文合集）_cmrxrecon: an open cardiac mri dataset for the com-CSDN博客

本文链接：https://blog.csdn.net/wzk4869/article/details/133137016

文章目录

一、Transformer(2篇)
- 1.1 Automatic Bat Call Classification using Transformer Networks
- 1.2 Forgery-aware Adaptive Vision Transformer for Face Forgery Detection
二、医学相关(2篇)
- 2.1 Uncovering the effects of model initialization on deep model generalization: A study with adult and pediatric Chest X-ray images
- 2.2 CMRxRecon: An open cardiac MRI dataset for the competition of accelerated image reconstruction

一、Transformer(2篇)

1.1 Automatic Bat Call Classification using Transformer Networks

基于Transformer网络的蝙蝠呼叫自动分类

https://arxiv.org/abs/2309.11218

在这里插入图片描述
从蝙蝠的回声定位叫声中自动识别蝙蝠的种类是监测蝙蝠及其生活的生态系统的一项困难但重要的任务。在自动蝙蝠呼叫识别的主要挑战是高呼叫变异性，物种之间的相似性，干扰呼叫和缺乏注释的数据。许多当前可用的模型由于在单调用数据集上训练而在真实数据上具有相对较差的性能，此外，对于实时分类来说通常太慢。在这里，我们提出了一个Transformer架构的多标签分类与潜在的应用程序在实时分类的情况下。我们通过将多个蝙蝠呼叫合并到一个具有多个同时呼叫的单个记录中，在合成生成的多物种记录上训练我们的模型。我们的方法在我们的测试集上实现了88.92%的单物种准确率（F1得分为84.23%）和74.40%的多物种宏观F1得分。与独立和公开数据集ChiroVox上的其他三种工具相比，我们的模型在单物种分类方面的准确率至少提高了25.82%，在多物种分类方面的宏观F1得分至少提高了6.9%。

1.2 Forgery-aware Adaptive Vision Transformer for Face Forgery Detection

可识别伪造的自适应视觉转换器在人脸伪造检测中的应用

https://arxiv.org/abs/2309.11092

在这里插入图片描述
随着人脸篡改技术的发展，人脸伪造检测在保护认证完整性方面的重要性日益凸显。以前基于Vision Transformer（ViT）的检测器在跨数据库评估中表现出低于标准的性能，主要是因为使用有限的Deepfake数据进行完全微调通常会导致忘记预先训练的知识并过度拟合特定数据。为了规避这些问题，我们提出了一种新的伪造感知自适应Vision Transformer（FA-ViT）。在FA-ViT中，vanilla ViT的参数被冻结以保存其预先训练的知识，而两个专门设计的组件，本地感知伪造注入器（LFI）和全局感知伪造适配器（GFA），被用来适应伪造相关的知识。我们提出的FA-ViT有效地结合了这两种不同类型的知识，以形成用于检测Deepfakes的通用伪造特征。具体而言，LFI捕获局部判别信息，并通过邻域保持交叉注意（NPCA）将这些信息并入ViT中。同时，GFA在自我注意层学习自适应知识，弥合了两个不同领域之间的差距。此外，我们设计了一种新的单域成对学习（SDPL），以促进FA-ViT中的细粒度信息学习。大量的实验表明，我们的FA-ViT在跨数据集评估和交叉操作场景中实现了最先进的性能，并提高了对不可见扰动的鲁棒性。

二、医学相关(2篇)

2.1 Uncovering the effects of model initialization on deep model generalization: A study with adult and pediatric Chest X-ray images

揭示模型初始化对深层模型泛化的影响：一项关于成人和儿童胸部X光图像的研究

https://arxiv.org/abs/2309.11318

在这里插入图片描述
模型初始化技术对于提高医学计算机视觉应用中深度学习模型的性能和可靠性至关重要。虽然许多文献存在于非医学图像，但对医学图像的影响，特别是胸部X射线（CXR）的了解较少。针对这一差距，我们的研究探索了三种深度模型初始化技术：冷启动、温启动、收缩和扰动启动，重点关注成人和儿科人群。我们特别关注定期到达数据训练的场景，从而拥抱正在进行的数据涌入和模型更新的需要的现实世界场景。我们评估了这些模型对外部成人和儿童CXR数据集的可推广性。我们还提出了新的集成方法：F-score加权序列最小二乘二次规划（F-SLSQP）和具有可学习模糊Softmax的注意力引导集合，以聚合来自多个模型的权重参数，从而利用它们的集体知识和互补表示。我们使用95%置信区间和p值进行统计学显著性检验，以分析模型性能。我们的评估表明，与ImageNet预训练权重初始化的模型表现出优于随机初始化的对应物的优越性，与非医学图像的一些发现相矛盾。值得注意的是，ImageNet预训练模型在不同训练场景的内部和外部测试期间表现出一致的性能。与单个模型相比，这些模型的权重级集合在测试期间显示出显著更高的召回率（p<0.05）。因此，我们的研究强调了ImageNet预训练的权重初始化的好处，特别是当与权重级别集合一起使用时，用于创建强大且可推广的深度学习解决方案。

2.2 CMRxRecon: An open cardiac MRI dataset for the competition of accelerated image reconstruction

CMRxRecon：一种开放的心脏MRI数据集，可用于加速图像重建

https://arxiv.org/abs/2309.10836

在这里插入图片描述
心脏磁共振成像（CMR）已成为心脏疾病的一种有价值的诊断工具。然而，CMR的限制是其成像速度慢，这导致患者不适并在图像中引入伪影。人们对基于深度学习的CMR成像算法越来越感兴趣，这些算法可以从高度欠采样的k空间数据中重建高质量的图像。然而，深度学习方法的开发需要大量的训练数据集，这些数据集尚未公开用于CMR。为了解决这一差距，我们发布了一个数据集，其中包括来自300名受试者的多对比度，多视图，多切片和多线圈CMR成像数据。成像研究包括心脏电影和标测序列。在数据集中还提供了所有受试者的心肌和腔室的手动分割。还提供了最先进的重建算法脚本作为参考。我们的目标是通过引入标准化的评估标准并使研究界可以免费访问数据集来促进最先进的CMR图像重建的进步。研究人员可以在https：//www.synapse.org/#访问数据集！Synapse：syn51471091/wiki/.