WinClip非官方复现代码的学习笔记

最新推荐文章于 2024-10-08 16:04:22 发布

君宝不饱

最新推荐文章于 2024-10-08 16:04:22 发布

阅读量804

点赞数 14

分类专栏： WinClip 文章标签：学习笔记人工智能 python

本文链接：https://blog.csdn.net/weixin_45795450/article/details/136746468

版权

WinClip 专栏收录该内容

13 篇文章 7 订阅

订阅专栏

一、论文介绍及链接

1.研究背景

在工业生产中，质量检测是确保产品符合标准的关键环节。传统的质量检测依赖于人工视觉检查，这不仅耗时耗力，而且容易受到主观判断的影响，导致检测结果的不一致性。随着自动化和智能化技术的发展，工业质量检测正逐步向自动化转型。然而，这一转型面临着诸多挑战。首先，工业产品及其缺陷在颜色、纹理和大小上的多样性极大，涉及航空、汽车、制药和电子等多个工业领域。这些差异导致了质量检测的长尾问题，即缺陷样本稀少且变化范围广，使得难以收集到具有代表性的异常样本进行模型训练。

以往的研究主要集中在为每个视觉检测任务训练定制模型，这种方法不具备可扩展性，难以适应任务多样性。因此，零样本（zero-shot）和少样本（few-shot）的异常分类和分割成为了研究的新焦点。这些方法旨在在没有或仅有少量正常样本的情况下，实现对异常的分类和定位。尽管视觉-语言模型在零样本分类任务中展现出了潜力，但在异常分类和分割任务上，现有的方法仍有待提高。本文提出了基于窗口的CLIP（WinCLIP）模型，通过组合状态词和提示模板的集成，以及与文本对齐的窗口/补丁/图像级特征的高效提取和聚合，显著提高了零样本异常分类和分割的性能。

2. 论文创新点

本文摒弃了这一模式，转而解决零样本和少数正常样本的异常分类和分割问题。最近的CLIP模型在零样本/少样本性能方面展现出了革命性的通用性，与全监督相比具有竞争力。然而，CLIP在异常分类和分割任务上表现不佳。因此，我们提出了基于窗口的CLIP（WinCLIP），它包括（1）状态词和提示模板的组合集成，以及（2）与文本对齐的窗口/补丁/图像级特征的有效提取和聚合。