写在前面:
这篇文献提出的方法对我的工作帮助不是太大,但可以扩展可解释性的理解。
1 摘要
深度学习在很多人工智能应用领域中取得成功的关键原因在于, 通过复杂的深层网络模型从海量数据中学习丰富的知识。然而, 深度学习模型内部高度的复杂性常导致人们难以理解模型的决策结果, 造成深度学习模型的不可解释性, 从而限制了模型的实际部署。因此, 亟需提高深度学习模型的可解释性, 使模型透明化, 以推动人工智能领域研究的发展。本文旨在对深度学习模型可解释性的研究进展进行系统性的调研, 从可解释性原理的角度对现有方法进行分类, 并且结合可解释性方法在人工智能领域的实际应用, 分析目前可解释性研究存在的问题, 以及深度学习模型可解释性的发展趋势。为全面掌握模型可解释性的研究进展以及未来的研究方向提供新的思路。
2 可解释问题研究现状
2.1 什么是可解释性
定义:可解释性是指我们具有足够的可以理解的信息, 来解决某个问题。具体到人工智能领域, 可解释的深度模型能够给出每一个预测结果的决策依据, 比如银行的金融系统决定一个人是否应该得到贷款, 并给出相应的判决依据。
如图 1, 分类器不仅要识别图片中的猫, 而且要给出分类依据。

根据可解释性的解释范围, 我们可以分为全局可解释和局部可解释。
全局可解释性
整体模型的可解释性是指同时理解整个模型, 并解释全局模型输出。比如输入特征对预测结果的重要性程度, 以及不同特征之间的相互作用等等。
模块化层面上的全局可解释性是在模块层面上理解模型, 将全局模型的可解释性进行模块化。
局部可解释性
单一