【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递（9 月 21 日论文合集）

最新推荐文章于 2023-11-21 13:06:01 发布

旅途中的宽~

最新推荐文章于 2023-11-21 13:06:01 发布

阅读量236

点赞数

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉分类人工智能

本文链接：https://blog.csdn.net/wzk4869/article/details/133138363

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章 135 订阅

订阅专栏

文章目录

一、分类|识别相关(5篇)

一、分类|识别相关(5篇)

1.1 SkeleTR: Towrads Skeleton-based Action Recognition in the Wild

Skeletr：基于拖网骨架的野外动作识别

https://arxiv.org/abs/2309.11445

在这里插入图片描述
我们提出了SkeleTR，一个新的框架，基于骨骼的动作识别。与以前的工作，主要集中在受控环境，我们的目标更一般的情况下，通常涉及一个变量的人数和人与人之间的各种形式的互动。SkeleTR以两阶段范例工作。它首先使用图卷积对每个骨架序列的人内骨架动态进行建模，然后使用堆叠的Transformer编码器来捕获对一般场景中的动作识别很重要的人的交互。为了减轻不准确的骨架关联的负面影响，SkeleTR将相对短的骨架序列作为输入并增加序列的数量。作为一个统一的解决方案，SkeleTR可以直接应用于多个基于骨架的动作任务，包括视频级动作分类、实例级动作检测和组级动作识别。它还支持跨不同动作任务和数据集的迁移学习和联合训练，从而提高性能。在各种基于骨架的动作识别基准测试中，SkeleTR达到了最先进的性能。

1.2 STARNet: Sensor Trustworthiness and Anomaly Recognition via Approximated Likelihood Regret for Robust Edge Autonomy

STARnet：基于近似似然后悔的传感器可信性和异常识别

https://arxiv.org/abs/2309.11006

在这里插入图片描述
诸如LiDAR、RADAR和事件相机等复杂传感器在自主机器人中激增，以增强对环境的感知和理解。同时，这些传感器也容易受到各种故障机制的影响，这些故障机制可以与其操作环境复杂地相互作用。与此同时，复杂传感器上训练数据的有限可用性也会影响其基于深度学习的预测流程的可靠性，其中其预测模型可能无法推广到训练集中未充分捕获的环境。为了解决这些可靠性问题，本文介绍了STARNet，传感器可信度和异常识别网络，旨在检测不可信的传感器流，可能会出现传感器故障和/或具有挑战性的环境。我们专门对STARNet的LiDAR和相机数据进行了基准测试。STARNet采用近似似然后悔的概念，这是一种为低复杂度硬件定制的无梯度框架，特别是那些只有定点精度能力的硬件。通过大量的模拟，我们证明了STARNet在检测不可信的传感器流在单峰和多峰设置的功效。特别是，该网络在解决内部传感器故障，如跨传感器干扰和串扰表现出卓越的性能。在各种测试场景中，包括恶劣天气和传感器故障，我们表明，STARNet通过过滤掉不可信的传感器流，提高了约10%的预测精度。STARNet可在\url{https：//github.com/sinatayebati/STARNet}上公开获取。

1.3 COSE: A Consistency-Sensitivity Metric for Saliency on Image Classification

COSE：一种一致性敏感的图像分类显著度度量

https://arxiv.org/abs/2309.10989

在这里插入图片描述
我们提出了一组指标，利用视觉先验有效地评估图像分类任务的显着性方法的性能。为了理解深度学习模型中的行为，许多方法提供视觉显著性图，强调对模型预测贡献最大的图像区域。然而，有有限的工作在解释模型决策的显着性方法的可靠性分析。我们提出了度量COnsistency-SEnsitivity（COSE），它量化了使用简单数据增强的视觉模型解释的等变和不变特性。通过我们的指标，我们表明，虽然显着性方法被认为是架构独立的，大多数方法可以更好地解释基于变换的模型，基于卷积的模型。此外，GradCAM被发现在COSE方面优于其他方法，但被证明具有局限性，例如缺乏细粒度数据集的可变性。一致性和敏感性之间的二元性允许从不同角度分析显著性方法。最终，我们发现，重要的是要平衡这两个指标的显着性图忠实地显示模型的行为。

1.4 On-device Real-time Custom Hand Gesture Recognition

设备上实时自定义手势识别

https://arxiv.org/abs/2309.10858

在这里插入图片描述
大多数现有的手势识别（HGR）系统限于预定义的一组手势。然而，用户和开发人员通常希望识别新的、看不见的手势。这是具有挑战性的，这是由于所有合理的手形的巨大多样性，例如：开发者不可能将所有手势包括在预定义列表中。在本文中，我们提出了一个用户友好的框架，让用户可以轻松地自定义和部署自己的手势识别管道。我们的框架提供了一个预训练的单手嵌入模型，可以微调自定义手势识别。用户可以在网络摄像头前执行手势，以收集每个手势的少量图像。我们还提供了一个低代码的解决方案来训练和部署自定义手势识别模型。这使得ML专业知识有限的用户可以轻松使用我们的框架。我们还为没有任何ML专业知识的用户提供了一个无代码的Web前端。这使得构建和测试端到端管道变得更加容易。然后，所得到的自定义HGR准备好在设备上运行以用于实时场景。这可以通过调用我们的开源模型推理API MediaPipe Tasks中的一个简单函数来完成。整个过程只需要几分钟。

1.5 Comparative study of Deep Learning Models for Binary Classification on Combined Pulmonary Chest X-ray Dataset

肺胸片组合数据集的深度学习二值分类模型比较研究

https://arxiv.org/abs/2309.10829

在这里插入图片描述
用于疾病检测的基于CNN的深度学习模型最近变得流行。我们比较了八种主要深度学习模型的二进制分类性能：DenseNet 121、DenseNet 169、DenseNet 201、EffecientNet b0、EffecientNet lite4、GoogleNet、MobileNet和ResNet18在合并肺部胸部X射线数据集上的二进制分类性能。尽管医学图像在不同领域的广泛应用，但当应用于相同数据集时，在确定它们的相对性能方面仍然存在知识差距，这是本研究旨在解决的差距。该数据集结合了中国深圳（CH）和美国蒙哥马利（MC）的数据。我们训练了我们的模型进行二进制分类，计算了上述模型的不同参数，并对它们进行了比较。训练模型以记住所有遵循相同的训练参数以维持受控的比较环境。研究结束时，我们发现其他模型在应用于肺部胸部X射线图像数据集时的性能存在明显差异，其中DenseNet169的准确率为89.38%，MobileNet的准确率为92.2%。关键词：肺，深度学习，结核病，疾病检测，X射线