FunnyBirds: 一个用于解释人工智能方法的基于部分的分析的合成视觉数据集

f13750354c8079fecb867b7ff1279363.png

论文标题:FunnyBirds: A Synthetic Vision Dataset for a Part-Based Analysis of Explainable AI Methods

论文链接:https://openaccess.thecvf.com/content/ICCV2023/html/Hesse_FunnyBirds_A_Synthetic_Vision_Dataset_for_a_Part-Based_Analysis_of_ICCV_2023_paper.html

代码:https://github.com/visinf/funnybirds

引用:Hesse R, Schaub-Meyer S, Roth S. FunnyBirds: A Synthetic Vision Dataset for a Part-Based Analysis of Explainable AI Methods[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 3981-3991.

1db3d1f49236076c65b4e37e0342db13.png

导读

可解释人工智能(XAI)领域旨在揭示复杂的深度神经模型的内部工作原理。虽然XAI对于安全关键领域至关重要,但它本质上缺乏基本真实的解释,这使得其自动评估成为一个未解决的问题。

我们通过提出一个新的合成视觉数据集FunnyBirds以及自动评估协议来解决这一挑战。我们的数据集允许进行语义有意义的图像干预,例如,删除单个对象部分,这有三个重要的含义:

  • 首先,它能够在部分层面上分析解释,这比现有的在像素层面上评估的方法更接近人类的理解。

  • 其次,通过比较移除部分后的输入的模型输出,我们可以估计出应该反映在解释中的基准部分重要性。

  • 第三,通过将个体解释映射到一个共同的部分重要性空间,我们可以在一个公共框架中分析各种不同的解释类型。

使用我们的工具,我们报告了24种不同的神经模型和XAI方法组合的结果,以全自动和系统的方式展示了评估方法的优缺点。

介绍

尽管深度学习模型在计算机视觉方面取得了突破性的成果,但其内部运作在很大程度上仍然不透明。由于这个原因,深度网络有时只能获得有限的用户信任,不能在安全关键领域盲目应用。为了解决这个问题,可解释人工智能(XAI)领域日益受到关注,试图以人类可理解的方式解释深度神经模型的内部运作方式。

然而,由于通常没有基准解释,评估XAI方法仍然是一个开放的挑战。事实上,三分之一的XAI论文缺乏健全的定量评价[38],而其他工作具有有限的可比性[31]或有问题的评估协议[23,38]。

为了解决缺少基准解释的问题,自动评估通常通过代理任务来完成,这些代理任务遵循了通过去除某些输入特征来衡量模型输出的结果的思想。由于在现有的视觉数据集上执行图像干预通常并不容易,通常在像素级别上应用,例如,遮蔽单个像素。

然而,这种方法和相关方法存在一些缺点。首先,在像素级别上执行干预以及评估解释与提供人类可理解解释的下游任务是脱节的,因为人类以概念而不是像素的方式感知图像。其次,现有的自动评估协议是针对特定的解释类型开发的,例如像素级别的归因图,因此无法扩展到其他解释类型,如原型。第三,通过在图像空间执行不切实际的干预,例如遮蔽像素,与训练分布相比引入了领域转移,这可能导致模型行为出乎意料,从而对评估产生负面影响。

在这项工作中,我们通过提出了一个全面的、专门的评估/分析工具,解决了上述和更多的挑战,为XAI方法的更严格的定量评估迈出了重要的一步。我们通过建立一个完全可控的,合成的分类数据集,包括人工鸟类物种的渲染图来做到这一点。这种分析XAI方法的方法类似于受控实验室研究,我们对所有变量进行完全控制,消除了不相关因素的潜在影响,从而为观察到的行为[5]提供了更清晰的证据。

我们提出的数据集允许我们做出以下主要贡献:

  1. 通过考虑一系列不同的评估协议,我们涵盖了广泛的可解释性维度。

  2. 允许在一个共享的框架中自动比较各种解释类型。

  3. 通过在训练时引入有语义意义的干预,避免了以往图像空间干预的域外问题。

  4. 通过提出在语义上有意义的部分水平上而不是语义没有意义的像素级别,减少人类理解的下游任务和XAI评估之间的差距

  5. 自动分析解释的一致性

  6. 分析了现有XAI方法和神经模型的24种不同组合,突出了它们的优缺点,并确定了可能对XAI社区普遍感兴趣的新见解

FunnyBirds 数据集

数据集背景

鉴于计算机视觉中的XAI方法主要是在分类的背景下开发的,我们着重于分类,并提出了一个受到CUB-200-2011数据集启发的细粒度鸟类数据集。CUB-200-2011数据集在XAI方法中被广泛使用。

数据集规模

我们的数据集包括50,500张图像(50,000张用于训练,500张用于测试),涵盖了50种合成鸟类物种。我们发现500张测试图像足以产生稳定的结果,同时也允许在有限硬件资源下进行高效的评估。

概念的重要性

我们的设计过程中特别重要的一点是concepts,即概念,我们将concepts定义为对于分类至关重要的心理实体的心理表示。例如,人类在观察到弯曲的喙和粉红色的翅膀等概念时可能会将一只鸟归类为火烈鸟。因此,我们认为概念在XAI的背景下对于人类至关重要,因此我们在数据集设计中特别强调概念

概念的细节粒度

为了确定数据集中概念的精确粒度,我们强制使它们尽可能细粒化,同时对应于现有的个别词汇,并与鸟的身体相关联。这避免了“不切实际”的情况,即一个概念的移除会使另一个概念脱离(鸟的身体永远不会被移除),并消除了过于细粒化的概念。

数据集的设计过程

我们手动设计了4种喙、3种眼睛、4种脚、9种尾巴和6种翅膀,它们具有不同的形状和/或颜色。每个FunnyBird类别由这些部分的独特组合组成。从2592种可能的组合中,随机选择了50个类别作为数据集的一部分。使用这些类别,我们按照图2中概述的数据生成过程,在一个中性的身体模型中添加了特定于类的部分,以获得FunnyBird的一个实例。通过人类专家验证了数据集的可解性,专家在提出的测试集上达到了97.4%的准确率。

aa9b9dfc7d83dd27da6f2daa32d09031.png

评估协议

在这一节中,我们提出了一个通用的、多维度的分析框架,称为FunnyBirds框架,它允许在一个共同的框架中评估各种现有的XAI方法。其次,我们提出了一种更精细的分析方法,利用数据集的功能来深入了解特定方法,类似于人类研究可以做的事情。

FunnyBirds框架包括三个可解释性维度(完整性、正确性和对比性)的六个评估协议。这些协议的选择是基于它们在相关工作中的流行度,能够自动测量以及与数据集兼容。大多数协议都受到了成熟的评估实践的启发,并遵循了公认的假设。数据集生成过程确保了所有进行的干预都可以被视为在领域内且具有语义意义,从而消除了一些现有评估协议(依赖于图像干预)的常见缺点。

Accuracy和背景独立性

Accuracy(A) :准确性。一个过于简单的模型可能可以解释,但不能解决手头的任务。为了检测这类情况,我们的框架报告了标准的分类精度。

Background independence(BI):背景独立性。类似地,另一个获得高解释分数的简单解决方案是一个对整个图像都敏感的模型。因此,解释会突出整个图像。为了检测这种情况,我们报告背景独立性,即背景对象中那些不重要的比例,即当它们被移除时,目标逻辑下降不到5%。

完整性

Controlled synthetic data check (CSDC):控制合成数据检查。通过比较解释估计为重要的部分与足够的部分集之间的集合重叠来测量解释的完整性。足够的部分集是指能够正确分类包含这些部分的图像的部分子集。

89b162c4a9f29d8d4169632327b7f970.png

Preservation check (PC):保持检查。如果一个解释是完整的,只保留解释估计为重要的输入部分应该仍然导致相同的分类输出。

c96351a5702126ecba30760e45d738bb.png

Deletion check (DC):删除检查。与PC相反,DC 通过删除解释认为重要的部分并测量是否导致不同的分类输出。

4279a41d75c6ef88c48e94309ad9e310.png

Distractibility (D):分散性。衡量解释是否过于详细。它测量实际上不重要的输入部分是否也被解释认为不重要。作者通过逐步移除每个背景对象和鸟类部分来定义这个指标,并衡量它们是否对分类结果产生少于5%的影响。

31822aa7a013777c8a547db0109f606c.png
正确性

Single deletion (SD):单次删除。用于测量解释中每个部分的重要性分数与实际删除该部分后模型目标类别的逻辑变化量之间的等级相关性。

6d718b3c132df134cbed3e81eb593713.png
Contrastivity

Target sensitivity (TS):目标灵敏度。如果一个解释对于目标类别敏感,它应该突出显示与相应目标有关的图像区域。我们选择一个输入样本,选择两个类别 cˆ1 和 cˆ2,它们分别与输入样本 xn 的实际类别具有两个不重叠的共同部分。之后,我们计算相对于 cˆ1 和 cˆ2 的解释 ef (xn, cˆi),并评估它们是否正确突出显示各自类别的部分。

88d40066273755f17c0f168666626551.png

实验

实验结果

FunnyBirds评估结果:

cb75b21f29fde3b417e4f0295b6a855b.png

ProtoPNet 的定性结果:

8d2a6d7f40010800d9555c38b46fc44a.png

反事实视觉解释的定性结果:

1817cac4e0fdc91a7c1805c780a15b32.png

结论

在这项工作中,我们提出了一种新的方法来自动分析XAI方法,使用一个合成的分类数据集,允许完整的注释和部分干预。利用这个数据集,我们提出了一个伴随的多维分析框架,它忠实地评估了可解释性的各个重要方面,并通过使用接口函数概括到不同的解释类型。使用这个易于使用的工具,我们分析了24个不同的设置,以揭示各种新的见解,并确认相关工作的发现。这表明,尽管采用了合成设置,我们的发现似乎可以很好地转化为真实数据,并且我们提出的工具是分析未来XAI方法的一个实用和有价值的资产。最后,我们展示了如何开发量身定制的分析,以更好地理解两种特定的XAI方法,并以自动和定量的方式发现了它们的弱点

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

219fa5b3cfd61cbcddb80661906a70ae.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值