多模态视觉语言工业质检 InCTRL 模型论文解读
本文探讨了通用异常检测(GAD)问题,旨在训练一个单一的检测模型,该模型无需对目标数据进行任何进一步的训练,即可在不同应用领域的各种数据集中泛化检测异常情况。最近的一些研究表明,像 CLIP 这样的大型预训练视觉语言模型(VLM)在检测各种数据集中的工业缺陷方面具有很强的泛化能力,但它们的方法在很大程度上依赖于手工制作的缺陷文本提示,因此很难泛化到其他应用中的异常情况,例如医疗图像异常或自然图像中的语义异常。在这项工作中,我们建议使用少量正常图像作为样本提示,在不同的数据集上即时训练 GAD 模型。
原创
2024-08-02 10:50:23 ·
844 阅读 ·
0 评论