文章目录
- 一、检测相关(9篇)
- 1.1 Classification Committee for Active Deep Object Detection
- 1.2 Detecting Olives with Synthetic or Real Data? Olive the Above
- 1.3 Contrastive Learning for Lane Detection via cross-similarity
- 1.4 Automatic Vision-Based Parking Slot Detection and Occupancy Classification
- 1.5 Unsupervised Domain Adaptive Detection with Network Stability Analysis
- 1.6 GPA-3D: Geometry-aware Prototype Alignment for Unsupervised Domain Adaptive 3D Object Detection from Point Clouds
- 1.7 Pro-Cap: Leveraging a Frozen Vision-Language Model for Hateful Meme Detection
- 1.8 Evaluating Picture Description Speech for Dementia Detection using Image-text Alignment
- 1.9 ECPC-IDS:A benchmark endometrail cancer PET/CT image dataset for evaluation of semantic segmentation and detection of hypermetabolic regions
一、检测相关(9篇)
1.1 Classification Committee for Active Deep Object Detection
主动深层目标检测分类委员会
https://arxiv.org/abs/2308.08476
在目标检测中,标记的成本非常高,因为它不仅需要确定图像中多个目标的类别,而且还需要准确地确定每个目标的边界框。因此,将主动学习技术融入到目标检测中具有十分积极的意义。在本文中,我们提出了一个分类委员会的主动深度目标检测方法,通过引入一个差异机制的多个分类器的样本选择时,训练对象检测器。该模型包含一个主检测器和一个分类委员会。主检测器表示从由所选择的信息图像组成的标记池训练的目标对象检测器。分类委员会的作用是从分类的角度,根据其不确定性值选择信息量最大的图像,预计这将更多地关注差异和实例的代表性。具体来说,他们通过测量由委员会通过建议的最大分类器差异组损失(MCDGL)预先训练的委员会输出的差异来计算图像内指定实例的不确定性。通过选择具有许多高不确定性实例的图像,最终确定信息量最大的图像。此外,为了减轻干扰实例的影响,我们设计了一个专注于积极的实例损失(FPIL),使委员会能够自动专注于代表性的实例,以及精确编码的差异,为同一实例。实验进行Pascal VOC和COCO数据集与一些流行的对象检测器。实验结果表明,该方法的性能优于现有的主动学习方法,验证了该方法的有效性。
1.2 Detecting Olives with Synthetic or Real Data? Olive the Above
用合成数据还是真实数据检测橄榄?上面是橄榄色的
https://arxiv.org/abs/2308.08271
现代机器人技术使精确农业的产量估算取得了进步。然而,当应用于橄榄产业时,橄榄颜色的高度变化及其与背景叶冠层的相似性提出了挑战。标记数千个非常密集的橄榄林图像进行分割是一项劳动密集型的任务。本文提出了一种新的方法来检测橄榄,而不需要手动标记数据。在这项工作中,我们提出了世界上第一个由合成和真实橄榄树图像组成的橄榄检测数据集。这是通过生成一个自动标记的真实感3D橄榄树模型来实现的。然后为了轻量级渲染目的简化其几何体。此外,实验进行了合成生成的和真实的图像的混合,产生了高达66%的改进相比,当只使用一个小样本的真实数据。当对真实的、人类标记的数据的访问受限时,大部分合成数据和少量真实数据的组合可以增强橄榄检测。
1.3 Contrastive Learning for Lane Detection via cross-similarity
基于交叉相似的车道检测对比学习
https://arxiv.org/abs/2308.08242
由于复杂的标记容易受到不利条件的影响,检测道路车道是具有挑战性的。车道标记具有很强的形状先验,但它们的可见性很容易受到损害。诸如照明、天气、车辆、行人和老化颜色等因素对检测提出了挑战。需要大量的数据来训练车道检测方法,该车道检测方法可以承受由低可见度引起的自然变化。这是因为存在许多车道形状和自然变化。我们的解决方案,对比学习车道检测通过交叉相似性(CLLD),是一种自监督学习方法,通过增强车道检测模型的弹性,以应对这一挑战,以现实世界的条件,导致车道低可见性。CLLD是一种新的多任务对比学习,训练车道检测方法,即使在低可见度的情况下,通过整合本地特征对比学习(CL)与我们新提出的操作交叉相似性来检测车道标记。局部特征CL侧重于提取小图像部分的特征,这是必要的,以定位车道段,而交叉相似性捕获全局特征,以检测模糊车道段使用其周围。我们增强交叉相似性随机掩蔽部分的输入图像增强。在基准数据集上进行评估,CLLD的性能优于最先进的对比学习,特别是在阴影等影响可见性的条件下。与监督学习相比,CLLD在阴影和拥挤场景等场景中表现出色。
1.4 Automatic Vision-Based Parking Slot Detection and Occupancy Classification
基于视觉的车位自动检测与占位分类
https://arxiv.org/abs/2308.08192
停车引导信息(PGI)系统用于向驾驶员提供关于最近的停车场和空闲停车位的数量的信息。最近,基于视觉的解决方案开始成为基于安装在每个停车位上的硬件传感器的标准PGI系统的经济高效的替代方案。基于视觉的系统基于由记录停车场的相机拍摄的图像来提供关于停车场占用率的信息。然而,由于各种可能的视点、天气条件和对象遮挡,开发这样的系统具有挑战性。最值得注意的是,它们需要手动标记输入图像中的停车位位置,这对相机角度变化、更换或维护敏感。在本文中,算法,执行自动停车位检测和占用分类(APSD-OC)单独的输入图像提出。自动停车位检测是基于一系列停车场图像中的车辆检测,在该停车场图像上,在鸟瞰图中应用聚类来检测停车位。一旦在输入图像中确定停车位位置,则使用专门训练的ResNet 34深度分类器将每个检测到的停车位分类为占用或空置。所提出的方法进行了广泛的评估公知的公开可用的数据集(PKLot和CNRPark+EXT),表现出高效率的停车位检测和鲁棒性的存在下,非法停车或过往车辆。训练后的分类器在车位占用分类中达到了较高的准确率。
1.5 Unsupervised Domain Adaptive Detection with Network Stability Analysis
基于网络稳定性分析的无监督域自适应检测
https://arxiv.org/abs/2308.08182
域自适应检测的目的是提高检测器的通用性,从标记的源域学习,在未标记的目标域。在这项工作中,从控制理论的稳定性的概念,一个强大的系统需要保持一致的外部和内部,无论干扰的灵感,我们提出了一个新的框架,实现无监督域自适应检测,通过稳定性分析。在具体的,我们对待来自不同领域的干扰图像和区域之间的差异,并介绍了一种新的简单而有效的网络稳定性分析(NSA)框架,认为各种干扰域适应。特别地,我们探讨了三种类型的扰动,包括重和轻的图像级扰动和instancelevel扰动。对于每一种类型,国家安全局执行外部一致性分析的输出,从原始和扰动图像和/或内部一致性分析其功能,使用师生模型。通过将NSA集成到Faster R-CNN中,我们立即获得了最先进的结果。特别是,我们在Cityscapes-to-FoggyCityscapes上创下了52.7%的新纪录,显示了NSA在域自适应检测方面的潜力。值得注意的是,我们的NSA是为通用目的而设计的,因此适用于一阶段检测模型(例如,FCOS)的性能。https://github.com/tiankongzhang/NSA的网站。
1.6 GPA-3D: Geometry-aware Prototype Alignment for Unsupervised Domain Adaptive 3D Object Detection from Point Clouds
GPA-3D:无监督区域自适应点云三维目标检测的几何感知原型对齐
https://arxiv.org/abs/2308.08140
基于LiDAR的三维检测技术近年来取得了很大的进展。然而,3D探测器的性能是相当有限的,当部署在看不见的环境中,由于严重的域间隙问题。现有的域自适应3D检测方法没有充分考虑特征空间中的分布差异的问题,从而阻碍了检测器跨域的泛化。在这项工作中,我们提出了一个新的无监督域自适应\textbf{3D}检测框架,即\textbf{G}eometry-aware \textbf{P}rototype \textbf{A} lignation(\textbf{GPA-3D}),它明确地利用了点云对象的固有几何关系,以减少特征差异,从而促进跨域转移。具体来说,GPA-3D为具有不同几何结构的点云对象分配了一系列定制和可学习的原型。每个原型对齐BEV(鸟瞰图)的特征,从相应的点云对象的源和目标域,减少分布差异,实现更好的适应。在包括Waymo、nuScenes和KITTI在内的各种基准测试上获得的评估结果表明,我们的GPA-3D在不同适应场景下优于最先进的方法。MindSpore版本代码将在\url{https://github.com/Liz66666/GPA3D}公开。
1.7 Pro-Cap: Leveraging a Frozen Vision-Language Model for Hateful Meme Detection
Pro-Cap:利用冻结的视觉语言模型进行仇恨模因检测
https://arxiv.org/abs/2308.08088
仇恨模因检测是一项具有挑战性的多模态任务,需要理解视觉和语言,以及跨模态交互。最近的研究试图微调预训练的视觉语言模型(PVLM)的这项任务。然而,随着模型大小的增加,更有效地利用强大的PVLM而不是简单地对其进行微调变得非常重要。最近,研究人员试图将模因图像转换为文本标题,并提示语言模型进行预测。这种方法已经显示出良好的性能,但遭受非信息图像字幕。考虑到上述两个因素,我们提出了一种基于探测的字幕方法,以利用PVLM在zero-shot视觉问答(VQA)的方式。具体而言,我们提示冻结PVLM通过询问仇恨内容相关的问题,并使用图像标题(我们称之为Pro-Cap)的答案,使标题包含仇恨内容检测的关键信息。基于Pro-Cap的模型在三个基准测试上的良好性能验证了所提方法的有效性和通用性。
1.8 Evaluating Picture Description Speech for Dementia Detection using Image-text Alignment
基于图文对齐的痴呆检测图像描述语音评价
https://arxiv.org/abs/2308.07933
使用图片描述语音进行痴呆检测已经研究了30年。尽管历史悠久,以前的模型侧重于识别健康受试者和痴呆患者之间的语音模式的差异,但不直接利用图片信息。在本文中,我们提出了第一个痴呆症检测模型,该模型将图片和描述文本作为输入,并结合了来自大型预训练图像-文本对齐模型的知识。我们观察痴呆症和健康样本之间的差异,在文本的相关性的图片和图片的重点领域。因此,我们认为这种差异可以用于提高痴呆症检测的准确性。具体来说,我们使用文本的相关性的图片排名和过滤样本的句子。我们还将图片的焦点区域确定为主题,并根据焦点区域对句子进行分类。我们提出了三个先进的模型,预处理的样本的基础上,他们的相关性的图片,子图像和重点领域。评估结果表明,我们的先进模型,与知识的图片和大的图像文本对齐模型,实现了国家的最先进的性能,最好的检测准确率为83.44%,这是高于只有文本基线模型的79.91%。最后,我们将样本和图片结果可视化,以解释我们的模型的优点。
1.9 ECPC-IDS:A benchmark endometrail cancer PET/CT image dataset for evaluation of semantic segmentation and detection of hypermetabolic regions
ECPC-IDS:用于评估语义分割和检测高代谢区域的基准子宫内膜癌PET/CT图像数据集
https://arxiv.org/abs/2308.08313
子宫内膜癌是女性生殖系统中最常见的肿瘤之一,并且是继卵巢癌和宫颈癌之后导致死亡的第三大常见妇科恶性肿瘤。早期诊断可显著提高患者的5年生存率。随着人工智能的发展,计算机辅助诊断在提高诊断的准确性和客观性,以及减轻医生的工作量方面发挥着越来越重要的作用。然而,缺乏公开可用的子宫内膜癌图像数据集限制了计算机辅助诊断技术的应用,在本文中,公开可用的子宫内膜癌PET/CT图像数据集的语义分割和检测的高代谢区域的评价(ECPC-IDS)。具体地,分割部分包括PET和CT图像,具有多种格式的总共7159个图像。为了证明分割方法在ECPC-IDS上的有效性,选择了五种经典的深度学习语义分割方法来测试图像分割任务。目标检测部分还包括PET和CT图像,共有3579张图像和带有注释信息的XML文件。本研究选取了六种深度学习方法进行检测任务的实验,使用基于深度学习的语义分割和对象检测方法进行了大量的实验,以展示ECPC-IDS上各种方法之间的差异。据我们所知,这是第一个公开可用的子宫内膜癌数据集,包含大量的多幅图像,包括图像和目标检测所需的大量信息。ECPC-IDS可以帮助研究人员探索新的算法,以提高计算机辅助技术,使临床医生和患者受益匪浅。