可解释机器学习笔记（一）——可解释性

小白成长之旅

已于 2023-07-12 10:36:03 修改

阅读量1.9k

点赞数

分类专栏：可解释人工智能(XAI) 文章标签：可解释机器学习可解释人工智能

于 2023-07-12 10:35:29 首次发布

本文链接：https://blog.csdn.net/weixin_45813658/article/details/131673555

版权

可解释人工智能(XAI) 专栏收录该内容

1 篇文章

订阅专栏

文章探讨了机器学习模型的可解释性，包括定义、性质和重要性，如公平性、隐私性和可靠性。介绍了自解释和事后可解释模型，以及特征概要统计量、可视化、模型内部结构、数据点和代理模型等解释方法。同时，区分了局部和全局解释，以及模型特定和模型无关的解释策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

可解释性定义

可解释性没有数学上的定义。
1、可解释性是指人们能够理解决策原因的程度。
2、可解释性是指人们能够一致地预测模型结果的程度。

可解释性包含的性质

如果要确保机器学习模型能够解释决策，除了从定义出发，还可以更容易地检查以下性质：
1、公平性(Fairness)。确保预测是公正的，不会隐式或显式地歧视受保护的群体。
2、隐私性(Privacy)。确保保护数据中的敏感信息。
3、可靠性(Reliability)或鲁棒性(Robustness)。确保输入的微小变化不会导致预测发生剧烈变化。
4、因果性(Causality)。检查是否只找到因果关系。
5、可信任性(Trust)。与黑匣子相比，人们跟容易信任用于解释其决策的系统。

可解释性方法分类

自解释 or 事后可解释

自解释：书中给出的定义是，通过限制机器学习模型的复杂性（称为内在的，也可称为本质上的），说明模型的可解释性。自解释性是指由于结构简单而被认为是可解释的机器学习模型。
事后解释：在训练后分析模型的方法，说明模型的可解释性。事后可解释性是指：模型训练之后运用解释方法，与模型无关的。

解释方法的输出

可以根据解释方法的输出大致区分各种解释方法。

特征概要统计量(Feature Summary Statistic)

许多解释方法为每个特征提供概要统计量。有些方法为每个特征返回一个数字，例如：特征重要性；或者更复杂的输出，例如：成对特征交互强度，即每个特征对表示一个数字。

特征概要可视化(Feature Summary Visualization)

大多数特征概要统计信息也可以可视化。部分依赖图是显示特征和平均预测结果的曲线。

模型内部(Model Internal)

一种方法是自解释模型的解释方法，例如：线性模型中的权重或决策树学习得到的树结构。另一种方法是输出模型内部结构，例如：在卷积神经网络中将学习到的特征检测器可视化。根据定义，输出模型内部的可解释性方法是特定于模型的。

数据点(Data Point)

这种方法返回已经存在或者新创建的数据点以使模型具有可解释性。一种方法称为反事实解释(Counterfactual Explanation)，为了解释对数据实例的预测，该方法通过用一些方式改变某些特征以改变预测结果（例如：预测类别的翻转），找到相似的数据点。另一种方法是识别预测类的原型，输出新数据点的解释方法要求可以解释数据点本身。