【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递（12 月 7 日论文合集）

最新推荐文章于 2024-06-21 08:36:45 发布

旅途中的宽~

最新推荐文章于 2024-06-21 08:36:45 发布

阅读量1k

点赞数 22

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉分类人工智能

本文链接：https://blog.csdn.net/wzk4869/article/details/134864292

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章 138 订阅

订阅专栏

本文概述了深度学习在多项关键领域的发展，如极化SAR图像的黎曼复矩阵卷积网络、手术反馈的多模态融合、Few-Shot分类的DISEF方法、基于LiDAR的身份识别、以及乳腺癌和肺癌的AI辅助诊断。同时，计算机视觉在手术室中的应用展示了手术效率提升的可能性。

摘要由CSDN通过智能技术生成

文章目录

一、分类|识别相关(7篇)

一、分类|识别相关(7篇)

1.1 Riemannian Complex Matrix Convolution Network for PolSAR Image Classification

黎曼复矩阵卷积网络在PolSAR图像分类中的应用

https://arxiv.org/abs/2312.03378

最近，深度学习方法在极化合成孔径雷达（PolSAR）图像分类方面取得了优异的性能。现有的深度学习方法通过将协方差矩阵转换为特征向量或复值向量作为输入来学习PolSAR数据。然而，这些方法都不能直接学习复矩阵的结构，破坏了信道的相关性。为了学习复矩阵的几何结构，首次提出了一种用于黎曼空间极化SAR图像分类的黎曼复矩阵卷积网络，直接利用复矩阵作为网络输入，定义了学习复矩阵特征的黎曼运算。提出的黎曼复矩阵卷积网络考虑了黎曼流形中赋给PolSAR复矩阵的情况，在黎曼空间中定义了一系列新的黎曼卷积、ReLu和LogEig运算，突破了传统网络的欧几里德约束。然后，添加CNN模块以增强上下文黎曼特征。此外，提出了一种快速的核学习方法，该方法学习类特定的特征，有效地减少了计算时间。对三组不同波段、不同传感器的实际极化SAR数据进行了实验。实验结果表明，该方法可以获得优于现有方法的性能。

1.2 Deep Multimodal Fusion for Surgical Feedback Classification

深度多模式融合用于手术反馈分类

https://arxiv.org/abs/2312.03231

在手术过程中，由经验丰富的外科医生向受训者提供的实时非正式反馈的量化对于手术训练中的技能提高是重要的。现场手术室中的这种反馈本质上是多模态的，包括口头对话（例如，问题和答案）以及非语言元素（例如，通过视觉线索，如指向解剖元素）。在这项工作中，我们利用临床验证的手术反馈的五类分类：“解剖”，“技术”，“程序”，“赞美”和“视觉辅助”。然后，我们开发了一个多标签机器学习模型，从文本，音频和视频模式的输入中对这五类手术反馈进行分类。我们工作的最终目标是帮助自动化大规模的实时上下文手术反馈的注释。我们对手术反馈的自动分类实现了AUC范围从71.5到77.6，融合将性能提高了3.1%。我们还表明，来自专家的反馈音频的高质量手动传输将AUC提高到76.5和96.2之间，这表明了未来改进的明确路径。从经验上讲，我们发现分阶段训练策略，首先分别对每种模态进行预训练，然后联合训练它们，比完全训练不同的模态更有效。我们还提出了直观的结果，不同的反馈类别的重要性的方式。这项工作提供了一个重要的第一次看的可行性，自动分类的真实世界的实时手术反馈的基础上，文本，音频和视频模式。

1.3 Diversified in-domain synthesis with efficient fine-tuning for few-shot classification

用于Few-Shot分类的具有高效微调的多样化的域内合成

https://arxiv.org/abs/2312.03046

Few-Shot图像分类的目标是学习一个图像分类器，每个类只使用一小组标记的例子。最近的一个研究方向，以改善Few-Shot分类涉及扩增的标记样本与合成图像创建的国家的最先进的文本到图像生成模型。根据这一趋势，我们提出了多样化的域内合成与有效的微调（DISEF），一种新的方法，解决了泛化的挑战，在Few-Shot学习使用合成数据。DISEF由两个主要部分组成。首先，我们提出了一种新的文本到图像增强管道，通过利用来自高级字幕模型的真实样本及其丰富的语义，促进域内样本多样性，以实现更好的泛化。其次，我们强调了有效的模型微调在Few-Shot识别中的重要性，提出了使用低秩自适应（LoRA）来联合适应视觉语言模型中的文本和图像编码器。我们在十个不同的基准测试中验证了我们的方法，始终优于基线，并为Few-Shot分类建立了一个新的最先进的方法。代码可在\url{https：//github.com/vturrisi/disef}获得

1.4 LiDAR-based Person Re-identification

基于激光雷达的身份识别

https://arxiv.org/abs/2312.03033

Camera-based person re-identification (ReID) systems have been widely applied in the field of public security. However, cameras often lack the perception of 3D morphological information of human and are susceptible to various limitations, such as inadequate illumination, complex background, and personal privacy. In this paper, we propose a LiDAR-based ReID framework, ReID3D, that utilizes pre-training strategy to retrieve features of 3D body shape and introduces Graph-based Complementary Enhancement Encoder for extracting comprehensive features. Due to the lack of LiDAR datasets, we build LReID, the first LiDAR-based person ReID dataset, which is collected in several outdoor scenes with variations in natural conditions. Additionally, we introduce LReID-sync, a simulated pedestrian dataset designed for pre-training encoders with tasks of point cloud completion and shape parameter learning. Extensive experiments on LReID show that ReID3D achieves exceptional performance with a rank-1 accuracy of 94.0, highlighting the significant potential of LiDAR in addressing person ReID tasks. To the best of our knowledge, we are the first to propose a solution for LiDAR-based ReID. The code and datasets will be released soon.

1.5 Double Integral Enhanced Zeroing Neural Network Optimized with ALSOA fostered Lung Cancer Classification using CT Images

优化的双积分增强型零点神经网络用于肺癌CT图像分类

https://arxiv.org/abs/2312.03028

肺癌是最致命的疾病之一，也是疾病和死亡的主要原因。由于肺癌不能在早期预测，只有当它扩散到其他肺部部位时才能被更广泛地发现。当放射科医生和其他专家确定肺癌是否是当前的风险增加。由于根据疾病的严重程度确定治疗类型及其深度的重要性，开发智能和自动癌症预测方案的关键是精确，在癌症的哪个阶段。本文提出了一种基于ALSOA优化的双积分增强归零神经网络（LCC-DIEZNN-ALSO-CTI）的肺癌CT图像分类方法。最初，输入CT图像是从肺癌数据集积累的。输入的CT图像通过无迹可训练卡尔曼滤波（UTKF）技术进行预处理。在预处理阶段，从CT图像中去除不需要的噪声。然后，利用自适应简洁经验小波变换（ACEWT）提取图像的灰度统计特征和Haralick纹理特征。该模型在MATLAB上实现。所提出的方法的性能进行了分析，通过现有的技术。与现有方法相比，所提出的方法的准确率分别提高了18.32%，27.20%和34.32%，例如使用AHHMM在计算机断层扫描图像上进行肺癌的深度学习辅助预测（LCC-AHHMM-CT），基于卷积神经网络的肺结节恶性评估，用于肺癌分类（LCC-ICNN-CT）、肺癌分类识别的自动决策支持方案（LCC-RFCN-MLRPN-CT）方法。

1.6 Enhanced Breast Cancer Tumor Classification using MobileNetV2: A Detailed Exploration on Image Intensity, Error Mitigation, and Streamlit-driven Real-time Deployment

使用MobileNetV2增强乳腺癌肿瘤分类：图像强度、误差消除和Streamlight驱动的实时部署的详细探索

https://arxiv.org/abs/2312.03020

这项研究引入了一个基于谷歌MobileNetV 2的复杂的迁移学习模型，用于将乳腺癌肿瘤分类为正常，良性和恶性类别，利用1576个超声图像的数据集（265个正常，891个良性，420个恶性）。该模型的准确率为0.82，精确率为0.83，召回率为0.81，ROC-AUC为0.94，PR-AUC为0.88，MCC为0.74。它检查图像强度分布和误分类错误，为未来的应用提供改进。为了解决数据集不平衡的问题，这项研究确保了一个可推广的模型。这项工作使用了来自埃及开罗Baheya医院的数据集，由Walid Al-Dhabyani等人编辑，强调了MobileNetV 2在医学成像领域的潜力，旨在提高肿瘤诊断的精确度。此外，本文还探讨了基于Streamlit的实时肿瘤分类部署，展示了MobileNetV 2在医学成像中的适用性，并为未来的肿瘤诊断研究设定了基准。

1.7 Computer Vision for Increased Operative Efficiency via Identification of Instruments in the Neurosurgical Operating Room: A Proof-of-Concept Study

计算机视觉通过识别神经外科手术室中的器械来提高手术效率：一项概念验证研究

https://arxiv.org/abs/2312.03001

计算机视觉（CV）是人工智能的一个领域，它使机器能够解释和理解图像和视频。CV有可能在手术室（OR）中帮助跟踪手术器械。我们建立了一个CV算法，用于识别神经外科手术室中的手术器械，作为手术器械跟踪和管理的潜在解决方案，以减少手术浪费和打开不必要的工具。方法收集27种常用神经外科器械的1660张图像。使用VGG图像注释器标记图像，并将其分成80%的训练集和20%的测试集，以便使用5倍交叉验证来训练U-Net卷积神经网络。结果我们的U-Net在区分25类器械时达到了80-100%的工具识别准确率，其中19/25类的准确率超过90%。模型性能不足以对Adson、Gerald和Debakey镊子进行亚分类，其准确度为60- 80%。结论我们证明了使用机器学习准确识别手术器械的可行性。器械识别可以帮助优化手术托盘包装，减少工具使用和浪费，降低器械错位事件的发生率，并帮助定时进行常规器械维护。需要更多的训练数据来提高神经外科手术室中所有手术器械的准确性。这种技术有可能被用作一种方法，用于证明在每种手术中真正需要什么工具，使世界各地的外科医生能够用更少的钱做更多的事情。