【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递（12 月 5 日论文合集）（下）

最新推荐文章于 2024-10-31 18:58:04 发布

旅途中的宽~

最新推荐文章于 2024-10-31 18:58:04 发布

阅读量1.1k

点赞数 26

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉分类人工智能

本文链接：https://blog.csdn.net/wzk4869/article/details/134814718

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章

订阅专栏

文章目录

1.8 Few-shot Shape Recognition by Learning Deep Shape-aware Features

基于深度形状感知特征学习的Few-Shot形状识别

https://arxiv.org/abs/2312.01315

传统的形状描述符由于其在特征提取和分类方面的优越性能，已逐渐被卷积神经网络所取代。最先进的方法通过图像重建或像素分类来识别物体形状。然而，这些方法都偏向于纹理信息，忽略了基本的形状描述，因此，他们无法推广到看不见的形状。我们是第一个提出了一个fewshot形状描述符（FSSD）识别对象的形状，只有一个或几个样本。我们采用嵌入模块FSSD提取变换不变的形状特征。其次，我们开发了一种双重注意机制，通过可学习的形状基元来分解和重建形状特征。通过这种方式，任何形状都可以通过有限集基础形成，并且学习的表示模型是高度可解释的，并且可扩展到看不见的形状。第三，我们提出了一个解码模块，包括形状掩模和边缘的监督，并对齐原始和重建的形状特征，使学习的特征更具形状意识。最后，所有提出的模块组装成一个Few-Shot形状识别计划。在五个数据集上的实验表明，我们的FSSD显着提高了形状分类相比，国家的最先进的Few-Shot设置下。

1.9 IDPL-PFOD2: A New Large-Scale Dataset for Printed Farsi Optical Character Recognition

IDPL-PFOD2：一种用于印刷体波斯语光学字符识别的新的大规模数据集

https://arxiv.org/abs/2312.01177

光学字符识别是一种将文档图像转换为可搜索和可编辑文本的技术，使其成为处理扫描文档的宝贵工具。虽然波斯语在亚洲是一种重要的官方语言，但开发识别波斯语印刷文本的有效方法的努力相对有限。这主要归因于语言的独特特征，如草书形式，某些字母字符之间的相似性，以及大量的变音符号和点的位置。另一方面，考虑到深度架构对有效性能的大量训练样本需求，此类数据集的开发具有至关重要的意义。鉴于这些问题，本文的目的是提出一种新的大规模数据集，IDPL-PFOD 2，为波斯语印刷文本识别量身定制。该数据集包括2003541张图像，具有各种字体，样式和大小。该数据集是先前引入的IDPL-PFOD数据集的扩展，提供了数量和多样性的大幅增加。此外，通过利用基于CRNN的架构和Vision Transformer架构来评估数据集的有效性。基于CRNN的模型实现了78.49%的基线准确率和97.72%的归一化编辑距离，而Vision Transformer架构实现了81.32%的准确率和98.74%的归一化编辑距离。

1.10 Rethinking Multiple Instance Learning for Whole Slide Image Classification: A Bag-Level Classifier is a Good Instance-Level Teacher

多实例学习在整个幻灯片图像分类中的再思考：袋级分类器是实例级的好老师

https://arxiv.org/abs/2312.01099

多实例学习（MIL）在全切片图像（WSI）分类中表现出了希望。然而，由于与处理这些千兆像素图像相关的高计算成本，主要挑战仍然存在。现有的方法通常采用两阶段的方法，包括不可学习的特征嵌入阶段和分类器训练阶段。虽然它可以通过使用在其他领域上预先训练的固定特征嵌入器来大大减少内存消耗，但这种方案也会导致两个阶段之间的差异，从而导致次优分类精度。为了解决这个问题，我们建议袋级分类器可以是一个很好的实例级教师。基于这一思想，我们设计了迭代耦合多实例学习（ICMIL），以低成本耦合嵌入器和袋分类器。ICMIL首先固定贴片嵌入器以训练袋分类器，然后固定袋分类器以微调贴片嵌入器。然后，改进的嵌入器可以生成更好的表示，从而为下一次迭代提供更准确的分类器。为了实现更灵活、更有效的嵌入器微调，我们还引入了师生框架，有效地提取包分类器中的类别知识，帮助实例级嵌入器进行微调。在四个不同的数据集上进行了深入的实验，以验证ICMIL的有效性。实验结果一致表明，我们的方法显着提高了现有的MIL骨干的性能，实现国家的最先进的结果。代码可在以下网址获得：https://github.com/Dootmaan/ICMIL/tree/confidence_based

1.11 Consistency Prototype Module and Motion Compensation for Few-Shot Action Recognition (CLIP-CP $\mathbf{M^2}$ C)

https://arxiv.org/abs/2312.01083

近年来，通过学习特征的可区分性和设计合适的比较方法，Few-Shot动作识别取得了显著进展。但仍有以下限制。(a)以前的作品主要是基于视觉的单模态。虽然一些多模态的作品使用标签作为补充来构建支持视频的原型，但它们不能将这些信息用于查询视频。标签没有得到有效利用。(b)虽然视频的运动特征对于识别是必不可少的，但大多数研究都忽略了视频的运动特征。我们提出了一个一致性原型和运动补偿网络（CLIP-CP $M^2$ C）来解决这些问题。首先，我们使用CLIP进行多模态Few-Shot动作识别，并使用文本图像比较进行领域自适应。其次，为了使原型和查询之间的信息量更相似，我们提出了一种新的方法来补偿文本（提示）的信息查询视频时，文本（提示）不存在，这取决于一致性损失。第三，我们使用相邻帧在两个方向上的差分特征作为运动特征，这显式地嵌入了网络与运动动力学。我们还将一致性损失应用于运动特征。在标准基准数据集上的大量实验表明，该方法可以与最先进的结果相竞争。我们的代码可以在URL：https://github.com/xxx/xxx.git上找到。

1.12 InceptionCaps: A Performant Glaucoma Classification Model for Data-scarce Environment

InceptionCaps：一种适用于数据稀缺环境的执行型青光眼分类模型

https://arxiv.org/abs/2312.00803

青光眼是一种不可逆转的眼部疾病，是全球第二大视力残疾原因。缓慢的视力丧失和疾病的无症状性质使其诊断具有挑战性。早期发现对于预防不可逆性失明至关重要。眼科医生主要使用视网膜眼底图像作为非侵入性筛查方法。卷积神经网络（CNN）在医学图像分类中表现出很高的精度。然而，由于CNN的不变性和不能处理对象之间的部分-整体关系，使得其直接应用不适合于昏迷眼底图像分类，因为它需要大量的标记图像用于训练。这项工作回顾了现有的最先进的模型，并提出了InceptionCaps，这是一种新型的基于胶囊网络（CapsNet）的深度学习模型，具有预训练的InceptionV 3作为其卷积基础，用于自动青光眼分类。InceptionCaps的准确度为0.956，特异性为0.96，AUC为0.9556，超过了RIM-ONE v2数据集上的几个最先进的深度学习模型性能。所获得的结果证明了所提出的深度学习模型的鲁棒性。

1.13 Informative Priors Improve the Reliability of Multimodal Clinical Data Classification

信息先验提高多模式临床数据分类的可靠性

https://arxiv.org/abs/2312.00794

机器学习辅助临床决策支持有可能显著改善患者护理。然而，现有的努力在这一领域的原则量化的不确定性在很大程度上被限制到应用程序的ad-hoc解决方案，并不一贯提高可靠性。在这项工作中，我们考虑随机神经网络和设计一个量身定制的多模态数据驱动（M2 D2）的先验分布网络参数。我们使用简单和可扩展的高斯平均场变分推理训练贝叶斯神经网络使用M2 D2先验。我们使用MIMIC-IV中的临床时间序列数据和MIMIC-CXR中相应的胸部X射线图像对所提出的方法进行训练和评估，以用于急性护理状况的分类。我们的实证结果表明，所提出的方法产生一个更可靠的预测模型相比，确定性和贝叶斯神经网络基线。

1.14 A Comparative Analysis Towards Melanoma Classification Using Transfer Learning by Analyzing Dermoscopic Images

基于皮肤镜图像的转移学习对黑色素瘤分类的对比分析

https://arxiv.org/abs/2312.01212

黑色素瘤是一种皮肤癌，起源于黑素细胞。它比其他类型的皮肤癌更危险，因为它可以扩散到其他器官。如果黑色素瘤扩散到身体的其他部位，可能是致命的。早期发现是治愈的关键，但这需要熟练的医生的技能来诊断。本文提出了一种将深度学习技术与已建立的迁移学习方法相结合的系统，以实现黑素瘤皮肤病变的分类和诊断。使用卷积神经网络，它提出了一种将黑色素瘤图像分类为良性和恶性图像的方法（CNN）。研究人员使用“深度学习”技术来训练大量的照片&基本上是为了获得预期的结果，因为皮肤镜图像很敏感，很难分类，所以需要使用大量参数来训练深度神经网络。本文强调了用有限的数据集和部分较少的深度网络构建复杂性较低、准确性相对较高的模型，以便系统可以在计算能力较低的设备内从输入的皮肤镜图像中尽可能准确地预测黑色素瘤。该数据集来自ISIC Archive。使用迁移学习技术实现了多个预训练模型ResNet101，DenseNet，EfficientNet，InceptionV3，以完成比较分析，每个模型都达到了良好的准确性。在训练模型之前，数据已经被多个参数增强以提高准确性。此外，结果优于以前的最先进的方法，足以预测黑色素瘤。在这些架构中，DenseNet的性能优于其他架构，其验证准确率为96.64%，验证损失为9.43%，测试集准确率为99.63%。