WinClip非官方复现代码的学习笔记

一、 论文介绍及链接

1.研究背景

在工业生产中,质量检测是确保产品符合标准的关键环节。传统的质量检测依赖于人工视觉检查,这不仅耗时耗力,而且容易受到主观判断的影响,导致检测结果的不一致性。随着自动化和智能化技术的发展,工业质量检测正逐步向自动化转型。然而,这一转型面临着诸多挑战。首先,工业产品及其缺陷在颜色、纹理和大小上的多样性极大,涉及航空、汽车、制药和电子等多个工业领域。这些差异导致了质量检测的长尾问题,即缺陷样本稀少且变化范围广,使得难以收集到具有代表性的异常样本进行模型训练。

以往的研究主要集中在为每个视觉检测任务训练定制模型,这种方法不具备可扩展性,难以适应任务多样性。因此,零样本(zero-shot)和少样本(few-shot)的异常分类和分割成为了研究的新焦点。这些方法旨在在没有或仅有少量正常样本的情况下,实现对异常的分类和定位。尽管视觉-语言模型在零样本分类任务中展现出了潜力,但在异常分类和分割任务上,现有的方法仍有待提高。本文提出了基于窗口的CLIP(WinCLIP)模型,通过组合状态词和提示模板的集成,以及与文本对齐的窗口/补丁/图像级特征的高效提取和聚合,显著提高了零样本异常分类和分割的性能。

2. 论文创新点

本文摒弃了这一模式,转而解决零样本和少数正常样本的异常分类和分割问题。最近的CLIP模型在零样本/少样本性能方面展现出了革命性的通用性,与全监督相比具有竞争力。然而,CLIP在异常分类和分割任务上表现不佳。因此,我们提出了基于窗口的CLIP(WinCLIP),它包括(1)状态词和提示模板的组合集成,以及(2)与文本对齐的窗口/补丁/图像级特征的有效提取和聚合。

3. 论文链接

https://arxiv.org/pdf/2303.14814.pdf

4. 参考项目链接https://github.com/caoyunkang/WinClip

5. 实验配置:

CPU:Geforce GTX 2080 super GPU GPU:Intel(R) Core i7-9700K;主频为3.60GHz,32GB内存的处理器

软件配置:Python 3.7, PyTorch 1.10, 更多具体的安装软件在 install.sh文件内

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值