【微软研究院 && 含源码】相比黑盒模型，可解释模型同样可以获得理想的性能

本文链接：https://blog.csdn.net/yinizhilianlove/article/details/127115258

来源: AINLPer 微信公众号（每日论文干货分享！！）
编辑: ShuYini
校稿: ShuYini
时间: 2022-09-29

引言

深度学习模型取得了显著的预测性能，但往往牺牲了可解释性。正因缺乏模型可解释性，这就导致一些应用领域（例如：医疗诊断、决策判断、案件审判等）不敢轻易相信模型的结果。为此本文提出了Emb-GAM，它可以在不牺牲可解释性的情况下实现了强大的预测性能。论文源码连接在后面

背景介绍

深度神经网络(DNNs)由于能够学习复杂的、非线性变量之间的关系，展示了显著的预测性能。然而，由于人类无法理解这些关系导致 DNN 被称为黑匣子，通常限制了它们在科学、医学和政策制定等高风险应用中的使用。此外，在用户面临公平和监管压力等问题的时候,DNN等黑盒模型(不可解释模型)的使用受到越来越多的审查。

作为黑盒模型的替代方案，透明模型（例如广义加法模型和基于规则的模型）能够保持可解释性。除此之外，透明模型往往比黑盒模型更快，计算效率更高。虽然透明模型有时可以像黑盒模型一样执行，但在自然语言处理 (NLP) 等许多环境中，透明模型和黑盒模型之间的性能通常存在差距。

基于以上考虑，本文旨在通过预训练的 DNN 来学习更有效的透明模型来弥补这一差距。具体来说，我们使用预训练的大型神经语言模型 (LLM) 来提取不同特征交互的嵌入（例如文本中的 ngram），然后在这些嵌入之上学习一个广义的加法模型。最终的学习模型（本文称为 Emb-GAM）是其输入特征和特征交互的透明线性函数。这里使用 LLM 可以大大减少模型需要学习的线性系数的数量，正因如此，Emb-GAM 不需要学习所有可能的特征交互的线性模型（它随着交互的阶数和特征维度呈指数增长），而是只需要学习一组固定的线性系数（LLM 提取的嵌入的大小）。因此，Emb-GAM 可以有效地模拟高阶交互，很好地泛化到新的交互（例如文本中看不见的 ngram），甚至可以改变测试时用于预测的特征数量。

模型具体介绍

Emb-GAM 由四个步骤组成，如下图所示：

Ngram提取 首先，用户指定一个从输入文本序列中提取一组 ngram 特征的过程，其中提取的 Ngram 在语义上必须是有意义。为此，这里采用词级spaCy标记器从文本中提取有意义的符号，其中要使用的交互顺序（即 ngram 的长度）可以预先指定或通过交叉验证选择。但是需要注意，包含的交互越长，结果模型的可解释性就越差。领域知识可用于改进 ngram 提取过程：例如，可以删除非常常见的“停用词”作为特征，或者可以使用特定于语言的解析树来提取关键 ngram。

Embedding提取 在该过程中，每个输入(即ngram)通过模型获取固定大小的嵌入。如果Trannsformer返回一个可变长度的嵌入（例如，嵌入是序列长度的大小），我们在其可变长度维度上进行平均。为了使 Emb-GAM 运行良好，重要的是预训练任务（例如下一个词预测）包含有关在下游任务（例如情感分类）中使用的交互的有用信息。

Embedding求和 对输入中的每个ngram的嵌入进行求和，得到一个固定大小的向量，确保最终模型的可加性。虽然只是进行了一个简单求和，但它可以通过权重进行调整(例如，对不同阶的ngrams进行不同的加权)。

拟合最终的线性模型进行预测 最后，通过训练一个线性模型对嵌入向量求和进行预测。

计算复杂度 整个Emb-GAM流程的拟合计算成本相当低，因为(i)预训练的语言模型只用于推理，(ii)它只需要将线性模型拟合到相对较少的特征。经过训练后，模型可以转换为每个Ngram的线性系数字典，使推理非常快。进行预测只需要查找样本中每个ngram的标量系数，其系数是ngram的嵌入和学习到的线性权重w之间的点积。

实验快照

在NLP中多种分类数据集上的实验表明，Emb-GAM方法比透明基线方法具有更好的泛化精度。此外，学习到的Emb-GAM模型很容易解释，无论是对个人预测还是在整个数据集级别，都可以在高风险使用场景中应用。

下图展示了不同模型在不同数据集上的泛化精度。与基线相比，Emb-GAM模型表现良好，在四个数据集中的三个数据集上实现了相当大的精度提高。值得注意的是，Emb-GAM模型的性能倾向于随着高阶ngram的添加而提高，而基线方法则不会。

下表说明了，通过交叉验证(再次使用经过调整的BERT模型来提取Emb-GAM的嵌入)来选择ngrams的顺序时显示了最佳结果。EmbGAM在三个数据集(Financial phrasebank, Rotten tomatoes和SST2)上显示了相当大的进步。

下图显示了使用 4-gram 拟合的 Emb-GAM 模型（使用微调的 BERT）的准确性。因为仅用于测试的 ngram 的顺序是不同的，随着用于测试的特征数量的增加，性能趋于提高，但解释变得更加困难。