【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递（7 月 17 日论文合集）_multimodal distillation for egocentric action reco-CSDN博客

本文链接：https://blog.csdn.net/wzk4869/article/details/131794382

文章目录

一、分类|识别相关(11篇)

一、分类|识别相关(11篇)

1.1 Multimodal Distillation for Egocentric Action Recognition

用于自我中心行为识别的多模式提取

https://arxiv.org/abs/2307.07483

在这里插入图片描述
以自我为中心的视频理解的焦点是建模手-对象交互。标准型号，例如CNN或Vision Transformers接收RGB帧作为输入，表现良好。然而，它们的性能通过采用提供补充线索（诸如对象检测、光流、音频等）的附加输入模态来进一步改进。另一方面，特定于模态的模块的增加的复杂性使得这些模型对于部署来说不切实际。这项工作的目标是保留这样的多模态方法的性能，同时仅使用RGB帧作为推理时的输入。我们证明，对于Epic-Kitchens和Something-Something数据集上的以自我为中心的动作识别，由多模态教师教授的学生往往比以单峰或多模态方式在地面真实标签上训练的建筑等效模型更准确，校准得更好。我们进一步采用了一个原则性的多模态知识蒸馏框架，使我们能够处理的问题时发生的天真的方式应用多模态知识蒸馏。最后，我们证明了实现的计算复杂性的降低，并表明，我们的方法保持更高的性能与输入视图的数量减少。

1.2 Dual-Query Multiple Instance Learning for Dynamic Meta-Embedding based Tumor Classification

基于动态Meta-Embedding的双查询多实例学习肿瘤分类

https://arxiv.org/abs/2307.07482

在这里插入图片描述
全切片图像（WSI）评估是癌症诊断和治疗计划中具有挑战性且关键的步骤。WSI需要高放大倍数以促进亚细胞分析。在千兆像素WSIs的上下文中，用于补丁甚至像素级分类的精确注释是冗长乏味的，并且需要领域专家。另一方面，粗粒度标签很容易访问，这使得WSI分类成为多实例学习（MIL）的理想用例。在我们的工作中，我们提出了一种新的基于嵌入的双查询MIL管道（DQ-MIL）。我们对嵌入和聚合步骤都有贡献。由于通用的视觉特征表示尚未提供，嵌入模型目前在泛化能力方面受到限制。通过我们的工作，我们探索了基于MIL背景下的尖端自监督预训练模型的动态元嵌入的潜力。此外，我们提出了一个新的MIL架构，能够结合MIL的关注与相关的自我关注。我们的方法的双查询感知器的设计，使我们能够利用自我蒸馏的概念，并结合了一个小模型的优势，在一个大模型的丰富的功能表示的背景下，低数据制度。我们证明了我们的方法在三个组织病理学数据集上的优异性能，在这些数据集上，我们显示出比最先进的方法提高了10%。

1.3 Interactive Spatiotemporal Token Attention Network for Skeleton-based General Interactive Action Recognition

基于骨架的交互时空令牌注意网络一般交互动作识别

https://arxiv.org/abs/2307.07469

在这里插入图片描述
交互动作识别在人机交互和协作中起着重要的作用。以往的方法使用后期融合和共同注意机制来捕获交互关系，这具有有限的学习能力或效率低下，以适应更多的交互实体。由于假设每个实体的先验知识都是已知的，因此也缺乏对涉及主题多样性的更一般性环境的评价。为了解决这些问题，我们提出了一个交互式时空令牌注意力网络（ISTA-Net），它同时模拟空间，时间和交互关系。具体来说，我们的网络包含一个标记器来划分交互式时空标记（IST），这是一种统一的方式来表示多个不同实体的运动。通过扩展实体维度，IST提供了更好的交互式表示。为了在IST中沿着三个维度共同学习，设计了与3D卷积集成的多头自注意块来捕获令牌间的相关性。在对相关性建模时，严格的实体排序通常与识别交互式动作无关。为此，实体重排，提出了消除可互换的实体在IST的有序性。在四个数据集上进行的大量实验验证了ISTA-Net的有效性，优于最先进的方法。我们的代码可在https://github.com/Necolizer/ISTA-Net上公开获取

1.4 Defect Classification in Additive Manufacturing Using CNN-Based Vision Processing

基于CNN的视觉处理在添加剂制造中的缺陷分类

https://arxiv.org/abs/2307.07378

在这里插入图片描述
计算机视觉和使用视觉传感器的原位监测的发展允许从增材制造（AM）过程中收集大型数据集。这样的数据集可以与机器学习技术一起使用，以提高AM的质量。本文研究了两种情况：首先，使用卷积神经网络（CNN）来准确地对来自AM的图像数据集中的缺陷进行分类，并且第二，将主动学习技术应用于所开发的分类模型。这允许构建人在回路机制以减少训练和生成训练数据所需的数据的大小。

1.5 3D Shape-Based Myocardial Infarction Prediction Using Point Cloud Classification Networks

基于点云分类网络的三维形状心肌梗死预测

https://arxiv.org/abs/2307.07298

在这里插入图片描述
心肌梗死（MI）是最普遍的心血管疾病之一，其相关临床决策通常基于单值成像生物标志物。然而，这样的度量仅近似心脏的复杂3D结构和生理学，因此阻碍了对MI结果的更好理解和预测。在这项工作中，我们调查的效用完整的三维心脏形状的点云的形式，以改善检测心肌梗死事件。为此，我们提出了一个全自动的多步骤流水线组成的3D心脏表面重建步骤，其次是点云分类网络。我们的方法利用点云几何深度学习的最新进展，在心脏解剖结构的高分辨率表面模型上实现直接和有效的多尺度学习。我们对1068名英国生物库受试者进行了普遍MI检测和事件MI预测任务的评估，发现与临床基准相比，我们的方法分别提高了_13%和5%。此外，我们分析了每个心室和心脏相位的3D形状为基础的MI检测的作用，并进行可视化分析的形态和生理模式通常与MI的结果。

1.6 One-Shot Action Recognition via Multi-Scale Spatial-Temporal Skeleton Matching

基于多尺度时空骨架匹配的一次动作识别

https://arxiv.org/abs/2307.07286

在这里插入图片描述
一次性骨骼动作识别，其目的是学习一个单一的训练样本的骨骼动作识别模型，已引起越来越多的兴趣，由于收集和注释大规模的骨骼动作数据的挑战。然而，现有的研究大多是通过比较它们的特征向量直接匹配骨架序列，忽略了骨架数据的空间结构和时间顺序。本文提出了一种新的单次骨架动作识别技术，通过多尺度时空特征匹配处理骨架动作识别。我们表示在多个空间和时间尺度的骨架数据，并从两个角度实现最佳的特征匹配。第一种是多尺度匹配，它同时在多个空间和时间尺度上捕获骨架数据的尺度语义相关性。第二种是跨尺度匹配，其通过捕获跨多个尺度的样本相关性来处理不同的运动幅度和速度。在三个大规模数据集（NTU RGB+D、NTU RGB+D 120和PKU-MMD）上的大量实验表明，我们的方法实现了优异的一次性骨架动作识别，并且它始终优于最先进的大幅度。

1.7 Complementary Frequency-Varying Awareness Network for Open-Set Fine-Grained Image Recognition

基于互补变频感知网络的开集细粒度图像识别

https://arxiv.org/abs/2307.07214

在这里插入图片描述
开集图像识别是计算机视觉中一个具有挑战性的课题。现有文献中的大多数工作都集中在从输入图像中学习更具鉴别力的特征，然而，它们通常对特征中的高频或低频分量不敏感，导致细粒度图像识别的性能下降。为了解决这个问题，我们提出了一个互补的频率变化感知网络，可以更好地捕捉高频和低频信息，称为CFAN。所提出的CFAN由三个顺序模块组成：（i）引入特征提取模块，用于从输入图像学习初步特征;（ii）频率变化滤波模块被设计成经由频率可调滤波器从频域中的初步特征中分离出高频分量和低频分量两者;（iii）互补的时间聚合模块被设计用于经由两个长短期记忆网络将高频分量和低频分量聚合成有区别的特征。基于CFAN，我们进一步提出了一种开集细粒度图像识别方法，称为CFAN-OSFGR，通过CFAN学习图像特征，并通过线性分类器进行分类。在3个细粒度数据集和2个粗粒度数据集上的实验结果表明，CFAN-OSFGR在大多数情况下的性能明显优于9种最先进的方法。

1.8 LightFormer: An End-to-End Model for Intersection Right-of-Way Recognition Using Traffic Light Signals and an Attention Mechanism

LightFormer：一种端到端的交通灯信号路权识别模型及注意机制

https://arxiv.org/abs/2307.07196

在这里插入图片描述
对于通过信号交叉口驾驶的智能车辆，确定车辆是否具有给定交通灯状态的通行权至关重要。为了解决这个问题，可以使用基于相机的传感器来确定车辆是否具有直行、左转或右转的许可。本文提出了一种新的端到端的交叉口路权识别模型称为LightFormer生成路权状态的可用行驶方向在复杂的城市交叉口。该模型包括一个时空的内部结构与注意力机制，它结合了过去的图像的功能，有助于当前帧的权利的方式状态的分类。此外，一个修改后的，多权重弧面损失，以提高模型的分类性能。最后，建议LightFormer的训练和测试两个公共交通灯数据集手动增强标签，以证明其有效性。

1.9 Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling

利用预先训练的ASR编码器实现有效且高效的端到端语音意图分类和空位填充

https://arxiv.org/abs/2307.07057

在这里插入图片描述
我们研究了语音意图分类和时隙填充（SICSF），提出使用在语音识别（ASR）上预训练的编码器来初始化端到端（E2 E）Conformer-Transformer模型，该模型在SLURP数据集上实现了新的最先进的结果，具有90.14%的意图准确度和82.27%的SLURP-F1。我们将我们的模型与在自监督学习（SSL）上预训练的编码器进行比较，并表明ASR预训练比SSL对SICSF更有效。为了探索参数效率，我们冻结了编码器并添加了适配器模块，并表明参数效率只能通过ASR预训练的编码器实现，而SSL编码器需要完全微调才能实现可比的结果。此外，我们提供了一个深入的比较端到端模型与级联模型（ASR+NLU），并表明，E2 E模型优于级联模型，除非提供一个Oracle ASR模型。最后但并非最不重要的是，我们的模型是第一个E2 E模型，实现了与Oracle ASR级联模型相同的性能。代码、检查点和配置可用。

1.10 A metric learning approach for endoscopic kidney stone identification

一种用于内窥镜肾结石识别的度量学习方法

https://arxiv.org/abs/2307.07046

在这里插入图片描述
最近已经提出了几种深度学习（DL）方法，用于在输尿管镜检查期间自动识别肾结石，以实现快速的治疗决策。即使这些DL方法产生了有希望的结果，它们也主要适用于可获得大量标记数据的肾结石类型。然而，只有少数标记的图像可用于一些罕见的肾结石类型。该贡献利用深度度量学习（DML）方法i）处理具有少量样本的此类类，ii）很好地泛化到分布样本之外，以及iii）更好地处理添加到数据库中的新类。所提出的引导深度度量学习方法基于一种新的架构，该架构旨在以改进的方式学习数据表示。该解决方案的灵感来自于Few-Shot学习（FSL），并利用了师生方法。教师模型（GEMINI）基于来自标记数据的先验知识生成简化的假设空间，并且将其用作学生模型（即，ResNet50）。首先对分别用于识别的两个数据集进行广泛的测试，即针对肾结石碎片的表面采集的一组图像和碎片部分的一组图像。建议的DML方法提高了10%和12%的识别精度相比，DL方法和其他DML方法，分别。此外，从两个数据集类型的模型嵌入合并在一个有组织的方式，通过多视图计划，同时利用表面和部分片段的信息。与DL模型和浅层机器学习方法相比，使用所得混合模型的测试分别将识别准确度提高了至少3%和高达30%。

1.11 Bridging the Gap: Heterogeneous Face Recognition with Conditional Adaptive Instance Modulation

弥合鸿沟：基于条件自适应实例调制的异类人脸识别

https://arxiv.org/abs/2307.07032

在这里插入图片描述
异构人脸识别（HFR）旨在匹配不同领域的人脸图像，例如热光谱和可见光谱，将人脸识别（FR）系统的适用性扩展到具有挑战性的场景。然而，目标领域中大规模数据集的领域差距和有限可用性使得从头开始训练鲁棒且不变的HFR模型变得困难。在这项工作中，我们对待不同的方式作为不同的风格，并提出了一个框架，以适应特征图，弥合域的差距。我们引入了一种新的条件自适应实例调制（CAIM）模块，可以集成到预先训练的FR网络中，将其转换为HFR网络。CAIM块调制中间特征图，以适应目标模态的风格，有效地桥接域间隙。我们提出的方法允许端到端的训练与最小数量的配对样本。我们在多个具有挑战性的基准测试中广泛评估了我们的方法，与最先进的方法相比，表现出卓越的性能。用于复制研究结果的源代码和协议将公开提供。