【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递（7 月 12 日论文合集）

最新推荐文章于 2024-06-21 08:36:45 发布

旅途中的宽~

最新推荐文章于 2024-06-21 08:36:45 发布

阅读量310

点赞数

分类专栏：计算机视觉arxiv最新论文文章标签：计算机视觉分类人工智能

本文链接：https://blog.csdn.net/wzk4869/article/details/131685189

版权

计算机视觉arxiv最新论文专栏收录该内容

165 篇文章 136 订阅

订阅专栏

本文介绍了深度学习在多个识别任务中的应用，包括基于CNN的手写文本识别，食物识别及其在糖尿病管理中的潜力，以及长尾分类问题的类实例平衡学习方法。同时讨论了知识蒸馏在视频分类中的新框架，主动学习在开放集病理图像分类中的重要性，以及眼周识别中的一次学习和领域适应。最后，提出特征激活图作为无全连接层模型的解释工具。

摘要由CSDN通过智能技术生成

文章目录

一、分类|识别相关(7篇)

一、分类|识别相关(7篇)

1.1 Handwritten Text Recognition Using Convolutional Neural Network

基于卷积神经网络的手写文本识别

https://arxiv.org/abs/2307.05396

在这里插入图片描述
OCR（光学字符识别）是一种技术，其仅通过扫描文档以电子速度提供手写和印刷字符的综合字母数字识别。最近，视觉数据的理解被称为智能字符识别（ICR）。智能字符识别（ICR）是OCR模块，可以将手写或打印字符的扫描转换为ASCII文本。ASCII数据是电子通信中数据编码的标准格式。ASCII为字母、数字、符号、空格和其他字符分配标准数值。在更多的技术术语中，OCR是使用电子设备将二维文本信息转换为机器编码文本的过程。任何包含机器书写或手写的文本的东西都可以通过扫描仪扫描，或者仅仅是文本的图片就足以让识别系统区分文本。本文的目标是展示卷积神经网络模型的结果，该模型已在包含超过100，000张图像的国家科学技术研究所（NIST）数据集上进行了训练。网络从图像中提取的特征中学习，并使用它来生成图片所属的每个类别的概率。我们已经实现了90.54%的准确性，损失2.53%。

1.2 Food Recognition and Nutritional Apps

食物识别和营养应用程序

https://arxiv.org/abs/2307.05372

食物识别和营养应用程序是趋势技术，可能会彻底改变糖尿病患者管理饮食的方式。这样的应用程序可以监测食物摄入量作为数字日记，甚至可以使用人工智能来自动评估饮食。尽管这些应用程序为管理糖尿病提供了一个有前途的解决方案，但患者很少使用它们。本章旨在对食品识别和营养应用程序的现状进行深入评估，以确定可能抑制或促进其使用的因素，同时概述相关研究和开发。

1.3 Class Instance Balanced Learning for Long-Tailed Classification

长尾分类中的类实例均衡学习

https://arxiv.org/abs/2307.05322

在这里插入图片描述
长尾图像分类任务在深度神经网络的开发中仍然很重要，因为它明确地处理了训练数据的类别频率的巨大不平衡。虽然在工程数据集中不常见，但这种不平衡几乎总是存在于现实世界的数据中。以前的方法已经表明，结合交叉熵和对比学习可以提高长尾任务的性能，但它们没有探索头部和尾部类之间的权衡。我们提出了一种新的类实例平衡损失（CIBL），它重新加权的交叉熵和对比损失的相对贡献的类实例在训练批次的频率的函数。这种平衡有利于更常见的类的对比损失，导致学习的分类器在所有类频率上具有更平衡的性能。此外，增加对比头部上的相对权重将性能从常见（头部）转移到罕见（尾部）类，允许用户在需要时将性能偏向这些类。我们还表明，改变线性分类器头与余弦分类器产生的网络，可以训练到类似的性能，在实质上更少的时代。我们在CIFAR-100-LT和ImageNet-LT上都获得了有竞争力的结果。

1.4 OpenAL: An Efficient Deep Active Learning Framework for Open-Set Pathology Image Classification

OpenAL：一种用于开放式病理图像分类的高效深度主动学习框架

https://arxiv.org/abs/2307.05254

在这里插入图片描述
主动学习是一种选择信息量最大的样本进行标注以降低标注成本的有效方法。现有的AL方法通常在闭集假设下工作，即，存在于未标记样本池中的所有类需要由目标模型分类。然而，在一些实际的临床任务中，未标记的池可能不仅包含需要细粒度分类的目标类别，而且还包含与临床任务无关的非目标类别。现有的AL方法在这种情况下不能很好地工作，因为它们倾向于选择大量的非目标样本。在本文中，我们制定了这种情况下，作为一个开放集AL问题，并提出了一个有效的框架，OpenAL，以解决查询样本从一个未标记的池与目标类和非目标类样本的挑战。对病理图像细粒度分类的实验表明，OpenAL可以显著提高目标类样本的查询质量，比目前最先进的AL方法具有更高的性能。代码可在www.example.com获得https://github.com/miccaiif/OpenAL。

1.5 The Staged Knowledge Distillation in Video Classification: Harmonizing Student Progress by a Complementary Weakly Supervised Framework

视频分类中的阶段性知识提取：弱监督互补框架协调学生进步

https://arxiv.org/abs/2307.05201

在这里插入图片描述
在视频数据标签有效学习的背景下，教师-学生架构的提取方法和结构设计对知识提取有着重要的影响。然而，这些因素之间的关系在以前的研究中被忽视了。为了解决这一差距，我们提出了一个新的弱监督学习框架，用于视频分类中的知识蒸馏，旨在提高学生模型的效率和准确性。我们的方法利用了基于子阶段的学习的概念，根据学生子阶段的组合和相应子阶段的相关性来提取知识。我们还采用渐进式级联训练方法来解决教师和学生之间的大容量差距所造成的准确性损失。此外，我们提出了一个伪标签优化策略，以改善初始数据标签。为了在训练过程中优化不同蒸馏子阶段的损失函数，我们引入了一种新的基于特征分布的损失方法。我们进行了大量的实验，真实和模拟数据集，证明我们提出的方法优于现有的蒸馏方法的知识蒸馏视频分类任务。我们提出的基于substage的蒸馏方法有可能为未来的视频数据标签有效学习研究提供信息。

1.6 One-Shot Learning for Periocular Recognition: Exploring the Effect of Domain Adaptation and Data Bias on Deep Representations

眼周识别的一次学习：探索领域适应和数据偏差对深层表征的影响

https://arxiv.org/abs/2307.05128

在这里插入图片描述
机器学习算法的一个弱点是需要为新任务训练模型。由于数据库的动态性质，这对生物识别提出了具体的挑战，并且在某些情况下，依赖于受试者协作进行数据收集。在本文中，我们研究了在极端数据稀缺的情况下广泛使用的CNN模型中深度表示的行为，用于One-Shot眼周识别，这是一种生物识别任务。我们将CNN层的输出作为代表身份的特征向量进行分析。我们研究了域自适应对网络层的输出看不见的数据的影响，并评估了该方法的鲁棒性数据规范化和泛化的最佳性能层。我们改进了最先进的结果，这些结果利用了使用具有数百万图像的生物特征数据集训练的网络，并通过利用针对ImageNet识别挑战和标准计算机视觉算法训练的开箱即用CNN来针对目标眼周数据集进行微调。例如，对于斜视数据集，我们可以在闭合世界和开放世界协议中分别将EER降低67%和79%（从1.70%和3.41%降低到0.56%和0.71%）。我们还证明，在数据有限的情况下，或者在网络没有使用开放世界模式等测试类进行训练的情况下，SIFT等传统算法可以优于CNN。在Close-World和Open-World协议中，SIFT单独能够将Cross-Eyed的EER分别降低64%和71.6%（从1.7%和3.41%降低到0.6%和0.97%），并且在PolyU数据库中，对于Open-World和单一生物特征情况，EER降低了4.6%（从3.94%降低到3.76%）。

1.7 Feature Activation Map: Visual Explanation of Deep Learning Models for Image Classification

特征激活图：深度学习图像分类模型的可视化解释

https://arxiv.org/abs/2307.05017

在这里插入图片描述
卷积神经网络（CNN）做出的决定可以通过可视化图像上的区分区域来理解和解释。为此，提出了基于类激活图（CAM）的方法作为强大的解释工具，使深度学习模型的预测更加可解释，透明和可信。然而，所有基于CAM的方法（例如，CAM、Grad-CAM和Relevance-CAM）只能用于解释具有全连接（FC）层的CNN模型作为分类器。值得注意的是，许多深度学习模型对没有FC层的图像进行分类，例如，Few-Shot学习图像分类、对比学习图像分类和图像检索任务。在这项工作中，提出了一种名为特征激活图（FAM）的事后解释工具，它可以解释没有FC层的深度学习模型作为分类器。在所提出的FAM算法中，通道的贡献权重来自两个图像嵌入之间的相似性得分。激活图与对应的归一化贡献权重线性组合，形成用于可视化的解释图。在10个深度学习模型上进行的定量和定性实验，用于Few-Shot图像分类，对比学习图像分类和图像检索任务，证明了所提出的FAM算法的有效性。