【异常检测】CVPR2023 VAND Zero-Shot :Segment Anything Anomaly(SAA+)

2nd Place Winning Solution for the CVPR2023 Visual Anomaly and Novelty Detection Challenge: Multimodal Prompting for Data-centric Anomaly Detection

论文链接:https://arxiv.org/pdf/2306.09067.pdf

Github链接: https://github.com/caoyunkang/Segment-Any-Anomaly

预备知识

Zero-Shot 

模仿人类的推理过程,使得计算机具有识别新事物的能力。

f177faeb37994e40b547b39608aa410c.png

参考链接:https://www.zhihu.com/tardis/zm/art/34656727?source_id=1005

Prompt

给模型一些提示(Prompt),从而根据输入给到相应的输出。

举例说明:目前比较火的GPT,输入一段中文,你需要告诉它你想要做什么事,比如说翻译,润色等。这时这个给出的翻译,润色等指令就是prompt。

关于prompt更详细的解释可以参考以下链接:

https://zhuanlan.zhihu.com/p/395115779

前言

SAA:使用一个单纯的文字提示(anomaly),由于提示的模糊性,定位出的效果有误。

SAA+:使用多模态提示:领域专家知识和目标图像背景,成功将过长的蜡烛芯进行定位。

b1934a323f1648639b49920c87af137e.png

Zero-shot Anomaly Segmentation (ZSAS)

c8aa8e9bba644e5e8619302e111beef2.png

SAA

ee017aebe15c47378983ebb6194d00f0.png

首先,将输入图片和提示送入异常区域生成器(DINO),得到bounding-box和其对应的置信度分数,之后送入异常区域精炼器(SAM),得到像素级的分割掩码和其对应的置信度分数。具体表达公式如下:

d458d226b6204c938f8496dbcc0a8a6e.pngfe8967d0397b4d768d16903610831b23.png

SAA+

网络框架

首先,将图片和eq?P%5E%7BL%7D提示送入SAA,得到分割掩码和对应的分数,然后通过eq?P%5E%7BP%7D,eq?P%5E%7BS%7D,eq?P%5E%7BC%7D三个提示,进一步优化SAA输出的分割掩码和分数,最终成功定位。

6e958e33d6d449e88f75d7c2c613c3cd.pngDomain Expert Knowledge

Language Prompteq?P%5E%7BL%7D

作用:详细地描述异常状态

1f158644f39340d089f7bac35268e898.png

分为类别无关和类别特定两部分

类别无关:异常情况不统一的时候,使用比较宽泛的提示:anomaly等

类别特定:异常情况统一,即:均在蜡烛上,只是过长的蜡烛芯才是异常的:overlong wick。

Output:anomaly region candidates R and corresponding confidence scores S

Property Prompteq?P%5E%7BP%7D

Anomaly  Location:潜在异常区域和被检查物体之间的交集应该大于某一个阈值

                          阈值θ_IOU

Anomaly Area:异常情况应小于被检查对象的大小

                 阈值θ_area

这里的阈值靠数据集来确定,不同数据集情况不同,具体数值参考代码。

0437cad245ad40ae89a3b485925feea4.png

Target Image Context

Saliency Prompteq?P%5E%7BS%7D

人判断一个物体异常会参考物体周围的情况,可知,周围像素的相似度和异常情况相关,这里使用显著性相似度判断异常的可能性。

bb8cd13e5a2743599f3fce8f8a6b3a05.png

f表示在位置为(i,j)的像素eq?f_%7Bij%7D最近邻的像素,<,>表示余弦相似度。

7b0cea91499f4e32862cd5aa17df419b.png

Confidence Prompteq?P%5E%7BC%7D

一张图片中异常的个数在一定范围内,选用置信度分数排名前K个的分割掩码和分数作为eq?P%5E%7BC%7D

32f4eb70ad3447dd958497bb92786bb6.png实验

F1分数

a9315243c7e24e2aa0fcd18ce55bbf36.png

实验

de13cb5680c748c6afa4263ffc943f81.png

dc0903110c6946dfa9efe67ff7cb911a.png

4583fc7cf5084b5fa0ba97a0bdd30ef4.png

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值