文章目录
- 一、分类|识别相关(14篇)
- 1.1 Semantically Redundant Training Data Removal and Deep Model Classification Performance: A Study with Chest X-rays
- 1.2 Ugly Ducklings or Swans: A Tiered Quadruplet Network with Patient-Specific Mining for Improved Skin Lesion Classification
- 1.3 Conditioning Latent-Space Clusters for Real-World Anomaly Classification
- 1.4 DGM-DR: Domain Generalization with Mutual Information Regularized Diabetic Retinopathy Classification
- 1.5 Multi-Semantic Fusion Model for Generalized Zero-Shot Skeleton-Based Action Recognition
- 1.6 Selective Volume Mixup for Video Action Recognition
- 1.7 Stealthy Physical Masked Face Recognition Attack via Adversarial Style Optimization
- 1.8 Enhancing Knee Osteoarthritis severity level classification using diffusion augmented images
- 1.9 MVP: Meta Visual Prompt Tuning for Few-Shot Remote Sensing Image Scene Classification
- 1.10 Tightening Classification Boundaries in Open Set Domain Adaptation through Unknown Exploitation
- 1.11 Delving into Multimodal Prompting for Fine-grained Visual Classification
- 1.12 Personalized Food Image Classification: Benchmark Datasets and New Baseline
- 1.13 Concept explainability for plant diseases classification
- 1.14 Performance Metrics for Probabilistic Ordinal Classifiers
一、分类|识别相关(14篇)
1.1 Semantically Redundant Training Data Removal and Deep Model Classification Performance: A Study with Chest X-rays
语义冗余训练数据去除与深度模型分类性能:基于胸部X光片的研究
https://arxiv.org/abs/2309.09773
深度学习(DL)已经证明了其从复杂和多维数据中独立学习分层特征的先天能力。一个普遍的理解是,它的性能随着训练数据量的增加而增加。另一个数据属性是固有的多样性。因此,语义冗余,即相似或重复信息的存在,将倾向于降低性能,并将泛化能力限制到不可见的数据。在医学成像数据中,语义冗余可能由于存在具有针对感兴趣疾病的高度相似呈现的多个图像而发生。此外,通常使用增强方法来生成DL训练中的多样性可能在应用于语义冗余数据时限制性能。我们提出了一种基于熵的样本评分方法来识别和删除语义冗余的训练数据。我们证明,使用公开可用的NIH胸部X射线数据集,在内部(召回:0.7164 vs 0.6597,p<0.05)和外部测试(回忆:0.3185对0.2589,p<0.05)。我们的研究结果强调了信息导向的训练样本选择的重要性,而不是使用所有可用的训练数据的传统做法。
1.2 Ugly Ducklings or Swans: A Tiered Quadruplet Network with Patient-Specific Mining for Improved Skin Lesion Classification
丑小鸭或天鹅:一个分层的四胞胎网络,具有特定于患者的挖掘,用于改进皮肤病变分类
https://arxiv.org/abs/2309.09689
丑小鸭是与个体周围病变明显不同的皮肤病变,丑小鸭征是通过区分高度可疑和良性病变来辅助诊断皮肤黑色素瘤的标准。然而,色素病变的外观,可以从一个患者到另一个患者急剧变化,导致难以视觉分离丑小鸭。因此,我们提出DMT-Quadruplet -一种深度度量学习网络,用于在两个层次上学习病变特征-患者级和病变级。我们引入了一个特定于患者的四联体挖掘方法与分层的四联体网络,以驱动网络在两层之间的全球和本地学习更多的上下文信息。我们进一步将患者特异性挖掘内的动态余量,以允许在个体内挖掘更有用的四联体。综合实验表明,我们提出的方法优于传统的分类器,在分类丑小鸭病变方面,比基线ResNet 18 CNN的灵敏度高54%,比幼稚三重网络高37%。度量空间中的数据流形的可视化进一步说明DMT-四元组能够成功地以患者特异性和患者不可知的方式对丑小鸭病变进行分类。
1.3 Conditioning Latent-Space Clusters for Real-World Anomaly Classification
用于现实世界异常分类的条件化潜在空间簇
https://arxiv.org/abs/2309.09676
自动驾驶领域的异常是自动驾驶车辆大规模部署的主要障碍。在这项工作中,我们专注于高分辨率的相机数据从城市场景,包括各种类型和大小的异常。基于变分自动编码器,我们条件的潜在空间分类样本为正常数据或异常。为了强调特别小的异常,我们进行实验,我们提供的VAE与差异图作为一个额外的输入,评估其对检测性能的影响。我们的方法将正常数据和异常分离成孤立的集群,同时仍然重建高质量的图像,导致有意义的潜在表示。
1.4 DGM-DR: Domain Generalization with Mutual Information Regularized Diabetic Retinopathy Classification
DGM-DR:互信息规则化糖尿病视网膜病变分类领域泛化
https://arxiv.org/abs/2309.09670
训练和测试数据之间的领域转换对训练可泛化深度学习模型提出了重大挑战。因此,当部署在现实世界中时,使用独立和同分布(i.i.d)假设训练的模型的性能恶化。由于跨临床中心、医疗设备和患者的数据采集的变化,该问题在医学成像环境中加剧。域泛化(DG)的目的是解决这个问题,通过学习一个模型,很好地推广到任何看不见的目标域。许多领域泛化技术在学习领域不变表示时都不成功,由于大的领域移位。此外,医学成像中的多个任务尚未在现有文献中广泛研究时,涉及DG的观点。在本文中,我们介绍了一种DG的方法,重新建立的模型的目标函数的互信息最大化与一个大的预训练模型的医学成像领域。我们重新访问的DG在糖尿病视网膜病变(DR)分类的问题,以建立一个明确的基准与正确的模型选择策略,并实现强大的域不变表示,改进的泛化。此外,我们进行了广泛的实验公开数据集,以表明我们提出的方法始终优于以前的国家的最先进的5.25%的平均准确度和较低的标准差。源代码可在https://github.com/BioMedIA-MBZUAI/DGM-DR获得
1.5 Multi-Semantic Fusion Model for Generalized Zero-Shot Skeleton-Based Action Recognition
基于广义Zero-Shot骨架的多语义融合动作识别模型
https://arxiv.org/abs/2309.09592
广义zero-shot骨架动作识别(GZSAR)是计算机视觉领域中一个新的挑战性问题,它要求模型在不需要任何训练样本的情况下识别动作。以往的研究仅利用动词短语的动作标签作为语义原型来学习从骨架为基础的动作到共享语义空间的映射。然而,动作标签的语义信息有限,限制了骨架特征识别不可见动作的泛化能力。为了解决这一困境,我们提出了一个多语义融合(MSF)模型来提高GZSAR的性能,其中两种类级别的文本描述(即,动作描述和运动描述)被收集作为辅助语义信息,以增强可概括的骨架特征的学习功效。特别地,预训练的语言编码器将动作描述、运动描述和原始类标签作为输入,以获取每个动作类丰富的语义特征,而骨架编码器被实现来提取骨架特征。然后,基于变分自动编码器(VAE)的生成模块进行学习骨架和语义特征之间的跨模态对齐。最后,建立分类模块,识别输入样本的动作类别,其中采用一个看不见的分类门来预测样本是否来自可见的动作类别。与以前的模型相比,优越的性能验证了所提出的MSF模型在GZSAR上的有效性。
1.6 Selective Volume Mixup for Video Action Recognition
用于视频动作识别的选择性音量混合
https://arxiv.org/abs/2309.09534
卷积神经网络(CNN)和Vision Transformers的最新进展令人信服地证明了在大型数据集上视频动作识别的高学习能力。然而,深度模型通常会在训练视频数量有限的小规模数据集上遭受过拟合效应。常见的解决方案是针对每个帧单独地利用现有的图像增强策略,包括Mixup、Cutmix和RandAugment,其不是针对视频数据特别优化的。在本文中,我们提出了一种新的视频增强策略,称为选择性体积混合(SV-Mix),以提高深度模型的泛化能力与有限的训练视频。SV-Mix设计了一个可学习的选择模块,从两个视频中选择信息量最大的卷,并混合卷以获得新的训练视频。从技术上讲,我们提出了两个新的模块,即,空间选择模块,用于为每个空间位置选择局部块,以及时间选择模块,用于为每个时间戳混合整个帧并保持空间模式。在每一次,我们随机选择两个模块中的一个,以扩大训练样本的多样性。选择性模块与视频动作识别框架联合优化,以找到最佳增强策略。我们经验证明的优点的SV-Mix增强的视频动作识别的基准和一贯启动的CNN为基础和基于变换器的模型的性能。
1.7 Stealthy Physical Masked Face Recognition Attack via Adversarial Style Optimization
基于对抗性风格优化的隐身物理蒙面人脸识别攻击
https://arxiv.org/abs/2309.09480
在过去的十年中,深度神经网络(DNN)在人脸识别(FR)任务上取得了最先进的性能。在实际场景中,DNN的部署需要考虑各种面部配件,如眼镜、帽子和面具。在COVID-19大流行时代,佩戴口罩是防御新型冠状病毒最有效的方法之一。然而,已知DNN容易受到具有小但复杂扰动的对抗性示例的攻击。因此,具有对抗性扰动的面罩可能对广泛使用的基于深度学习的FR模型构成巨大威胁。在本文中,我们考虑一个具有挑战性的对抗设置:针对FR模型的攻击。我们提出了一种新的隐形物理掩蔽FR攻击通过对抗风格优化。具体来说,我们训练对抗风格面具生成器,隐藏对抗扰动的风格面具。此外,为了改善一个固定风格的亚优化现象,我们提出了通过风格优化在一个目标下发现最优风格的连续松弛方式。我们同时优化生成器和风格选择,以生成强大的和隐蔽的对抗风格面具。我们评估了我们所提出的方法的有效性和可移植性,通过广泛的白盒和黑盒数字实验。此外,我们还对本地FR模型和在线平台进行了物理攻击实验。
1.8 Enhancing Knee Osteoarthritis severity level classification using diffusion augmented images
利用扩散增强图像增强膝关节骨关节炎严重程度分级
https://arxiv.org/abs/2309.09328
本研究利用先进的计算机视觉模型和增强技术探讨膝骨关节炎(OA)严重程度的分类。本研究探讨数据预处理的有效性,包括对比度有限的自适应直方图均衡(CLAHE),和使用扩散模型的数据增强。进行了三个实验:原始数据集上的训练模型、预处理数据集上的训练模型以及增强数据集上的训练模型。结果表明,数据预处理和增强显着提高了模型的精度。EfficientNetB 3模型在增强数据集上达到了84%的最高准确率。此外,注意力可视化技术,如Grad-CAM,被用来提供详细的注意力地图,增强模型的理解和可信度。这些研究结果强调了将高级模型与增强数据和注意力可视化相结合以进行准确的膝关节OA严重程度分类的潜力。
1.9 MVP: Meta Visual Prompt Tuning for Few-Shot Remote Sensing Image Scene Classification
MVP:用于Few-Shot遥感影像场景分类的元视觉提示调优
https://arxiv.org/abs/2309.09276
Vision Transformer(ViT)模型最近已成为各种视觉任务的强大和通用模型。最近,一项名为PMF的工作已经取得了可喜的成果,在Few-Shot图像分类利用预先训练的Vision Transformer模型。然而,PMF采用全微调学习的下游任务,导致显着的过拟合和存储问题,特别是在遥感领域。为了解决这些问题,我们转向最近提出的参数高效调优方法,如VPT,它只更新新添加的提示参数,同时保持预训练骨干冻结。受VPT的启发,我们提出了Meta视觉提示调谐(MVP)方法。具体而言,我们集成的VPT方法到元学习框架和定制它的遥感领域,导致在一个有效的框架Few-Shot遥感场景分类(FS-RSSC)。此外,我们引入了一种新的数据增强策略的基础上,补丁嵌入重组,以提高表示性和多样性的场景分类的目的。在FS-RSSC基准测试上的实验结果表明,所提出的MVP在各种设置下,如various-way-various-shot,various-way-one-shot和跨域自适应等,比现有方法具有更好的性能。
1.10 Tightening Classification Boundaries in Open Set Domain Adaptation through Unknown Exploitation
通过未知开发强化开放集域适应中的分类边界
https://arxiv.org/abs/2309.08964
卷积神经网络(CNN)由于其从原始数据中学习的能力,为许多研究领域带来了革命性的进步。然而,当这些方法被应用到非可控环境中时,许多不同的因素可以降低模型的预期性能,例如具有不同级别的域移位和类别移位的未标记数据集。特别是,当这两个问题同时发生时,我们解决了这个具有挑战性的设置开放集域自适应(OSDA)问题。一般来说,现有的OSDA方法只集中精力调整已知类,或者,如果他们已经提取了可能的负面实例,使用他们作为一个新的类别学习与监督在培训过程中学习。我们提出了一种新的方法来改进OSDA方法,提取一个高置信度的未知实例集,并使用它作为一个硬约束,收紧OSDA方法的分类边界。特别地,我们采用了一种新的损失约束,它可以用三种不同的方法来评估:(1)直接用原始负实例;(2)使用数据增强技术的随机变换负;以及(3)合成生成的含有对抗特征的底片。我们在基于OVANet的一系列广泛实验中评估了所有方法,其中我们可以观察到两个公共基准,Office-31和Office-Home数据集的一致改进,Office-31的准确性和H分数的绝对增益高达1.3%,Office-Home的准确性和H分数的绝对增益高达5.8%和4.7%。
1.11 Delving into Multimodal Prompting for Fine-grained Visual Classification
面向细粒度视觉分类的多模式提示研究
https://arxiv.org/abs/2309.08912
细粒度视觉分类(FGVC)涉及在更广泛的类别内对精细细分进行分类,这由于细微的类间差异和大的类内变化而带来挑战。然而,流行的方法主要集中在单模态视觉概念。预训练的视觉语言模型的最新进展已经在各种高级视觉任务中表现出显着的性能,但这些模型对FGVC任务的适用性仍然不确定。在本文中,我们的目标是充分利用跨模态描述的能力,以解决FGVC任务,并提出了一种新的多模态提示解决方案,表示为MP-FGVC,基于对比语言图像相关(CLIP)模型。我们的MP-FGVC包括多模态提示方案和多模态适应方案。前者包括子类别特异性视觉提示(SsVP)和差异感知文本提示(DaTP),后者从视觉和语言两个角度明确强调子类别特异性差异。后者对齐视觉和文本提示元素在一个共同的语义空间,促进跨模态协同推理,通过视觉语言融合模块(VLFM)进一步改进FGVC。此外,我们为MP-FGVC定制了一个两阶段优化策略,以充分利用预训练的CLIP模型,并加快FGVC的有效适应。在四个FGVC数据集上进行的大量实验证明了我们的MP-FGVC的有效性。
1.12 Personalized Food Image Classification: Benchmark Datasets and New Baseline
个性化食品图像分类:基准数据集和新基线
https://arxiv.org/abs/2309.08744
食物图像分类是基于图像的饮食评估的基本步骤,使得能够从食物图像进行自动营养分析。许多当前的方法使用深度神经网络来训练通用的食物图像数据集,这些数据集不反映现实生活中食物消费模式的动态性,其中食物图像随时间顺序出现,反映了个体消费的进展。个性化食物分类旨在通过使用反映每个人消费模式的食物图像训练深度神经网络来解决这个问题。然而,这个问题是探索不足,由于数据收集的困难,缺乏具有个性化食物消费模式的基准数据集。在这项工作中,我们首先介绍了两个基准的个性化数据集,包括Food 101-Personal,这是基于对现实世界中参与者的日常饮食模式的调查创建的,以及VFNPersonal,这是基于饮食研究开发的。此外,我们提出了一个新的框架,利用自监督学习和时间图像特征信息的个性化食品图像分类。我们的方法进行评估的基准数据集和现有的作品相比,表现出更好的性能。该数据集已在以下网址提供:https://skynet.ecn.purdue.edu/~pan161/dataset_personal.html
1.13 Concept explainability for plant diseases classification
植物病害分类的概念可解释性
https://arxiv.org/abs/2309.08739
植物病害仍然是对粮食安全和农业可持续性的重大威胁。快速和早期识别这些疾病已成为一个重要问题,促使一些研究依赖于日益增长的全球数字化和基于深度学习的计算机视觉的最新进展。事实上,基于深度卷积神经网络的植物病害分类已经表现出令人印象深刻的性能。然而,这些方法尚未在全球范围内采用,因为其鲁棒性,透明度和缺乏解释性的担忧与他们的人类专家同行。已经提出了诸如基于显着性的方法将网络输出与输入像素的扰动相关联的方法,以给出对这些算法的见解。尽管如此,它们并不容易理解,对于人类用户来说也不直观,并且受到偏见的威胁。在这项工作中,我们部署了一种称为测试与概念激活向量(TCAV)的方法,将焦点从像素转移到用户定义的概念。据我们所知,我们的论文是第一个采用这种方法在该领域的植物病害分类。分析了颜色、质地和疾病相关概念等重要概念。结果表明,基于概念的解释方法可以显着地有利于自动化植物病害识别。
1.14 Performance Metrics for Probabilistic Ordinal Classifiers
概率有序分类器的性能度量
https://arxiv.org/abs/2309.08701
有序分类模型将更高的惩罚分配给远离真实类的预测。因此,它们适用于相关的诊断任务,如疾病进展预测或医学图像分级。评估其分类预测的共识规定了使用距离敏感指标,如二次加权Kappa评分或预期成本。然而,很少有关于如何测量的性能的概率预测顺序分类器的讨论。在常规分类中,用于概率预测的常见度量是如Brier分数的适当评分规则(PSR)或如ECE的校准误差,然而这些不是用于有序分类的最佳选择。在预测领域中广泛流行的名为排序概率得分(RPS)的PSR更适合于此任务,但它在图像分析社区中没有得到关注。本文主张使用的RPS的图像分级任务。此外,我们演示了一个反直觉和可疑的行为,这个分数,并提出了一个简单的修复。综合实验对四个大规模生物医学图像分级问题在三个不同的数据集表明,RPS是一个更合适的性能指标概率有序预测。可以在https://github.com/agaldran/prob_ord_metrics上找到重现我们实验的代码。