摘要
近来预训练语言模型(Pretrained Language Models,PLM)得到了蓬勃的发展,由于其对语言的端到端建模特性及巨大的参数量,一些研究尝试利用它存储事实类知识(Factual Knowledge)进而替代具有较高使用门槛的知识库(Knowledge Base,KB),即PLM-as-KB。为探测PLM中是否具有某一则知识三元组,这些研究通常通过构建一则prompt以让PLM预测三元组的客体,一系列关于prompt调优、少样本学习的工作在这一任务范式上取得了不俗的效果。然而,在这些成果的背后,关于PLM给出知识预测的内在机制的分析始终是较为缺乏的,这让我们很难断定当前的任务范式及研究进展是否有助于PLM真正编码、理解知识;今天我们便介绍关于PLM进行知识解码之机制与行为的一些分析性研究,它们展示了各类因素对PLM的知识预测结果的影响,进而构成了对当前设定下PLM替代KB作为知识源的质疑。
背景:PLM-as-KB
知识图谱(Knowledge Base,KB)是目前普遍的知识存储引擎,尽管其为知识查询提供了高效、功能丰富的查询接口(如SPARQL),但也对普通用户的使用、各类NLP模型与其的交互造成了一定的困难。一些研究已经证实,预训练语言模型(Pretrained Language Models,PLM)具有一定的存储信息、回答问题能力,这提示我们PLM本身或许可以替代KB存储知识并以自然语言问答的形式提供知识查询接口。[1]便是一篇关于将PLM作为KB的开拓性研究,它定义了PLM中知识探测的客体预测范式:对于一条知识三元组<s,p,o>(如<Dante, Born_in, Florence>),他们构建一条类似于问题的自然语言prompt表示s和p(如Dante was born in [MASK])并输入给PLM,若模型能输出正确的客体o(即Florence),则视为PLM可成功解码出这一条知识。这样,只需对不同知识构建相应的prompt即可从PLM中查询知识。
在此基础上,许多工作对其提出了改进,例如引入额外的示例数据(prompt-正确答案对)以辅助PLM进行更准确的预测[2];此外也可通过优化prompt来实现更强的知识表示性能[3]。这些方法固然在客体预测中取得了不俗的表现,但他们都没有进一步分析导致PLM做出正确或错误预测的原因,进而很难断定上述表现是否能真正反映出PLM的知识表示能力;对此,一系列研究便尝试分析了上述客体预测范式中各类因素的影响,进而一定程度地质疑了PLM-as-KB的有效性。
对PLM知识预测行为的总体性分析
[4]分析了上述PLM进行客体预测的行为,并在三类常用的方法框架中(即基于Prompt的、基于示例样本的和基于篇章上下文的)分别讨论了PLM-as-KB的无效性。
基于Prompt预测知识的缺陷分析
[4]发现,当我们通过prompt从PLM中解码知识时,PLM的预测结果受到prompt模板的强烈影响,却并不甚依赖于某个选定的主体。具体地,他们发现具有相似谓词分布、不同主体分布(进而具有不同的客体/答案分布)的数据集上,PLM的预测分布相似;此外,仅将(表示谓词语义的)prompt模板输入PLM所产生的答案分布,与同时将主体与谓词输入PLM(即输入完整的prompt)所产生的答案分布具有较高相关性。最后,他们还发现表现较好的prompt从人为视角看实际上质量未必最优,反而可能仅是过拟合了数据集。总之,这表明PLM的预测很大程度上受prompt模板的病态影响,并没有真正理解对知识的查询并解码知识。
基于示例样本预测知识的缺陷分析
需要承认的是,向prompt中引入额外的示例样本确实能明显提高知识解码准确率,但[4]指出这些示例仅有助于PLM选择正确的答案类别,但在同类的候选答案中,这些示例很难为PLM提供有效的指导建议,因此引入示例的作用是有限而平凡的。
基于篇章上下文预测知识的缺陷分析
将一段相关的上下文插入prompt同样有助于提升预测表现,然而,[4]发现仅当这段上下文包含答案客体时,额外的篇章才能提升效果,否则,额外的输入反而会降低准确率。这说明,仅当上下文直接或间接泄露答案时,其才能帮助PLM解码知识,这同样说明此技巧作用的有限性和平凡性。
对影响PLM预测结果之因素的进一步分析
上述研究表明了PLM利用prompt解码知识时可能受无关因素影响进而产生病态依赖关系,这不利于其作为鲁棒的知识源。在此之上,一个自然的问题是,具体是什么因素影响了PLM的判断,以及是否能定量分析各因素对PLM(积极或消极)影响的大小?接下来的两篇工作就分别分析了一些粗粒度因素和细粒度因素对PLM预测的影响。
任务范式中的各因素之影响
PLM-as-KB的任务范式中,预训练语料、prompt生成器、实体别名生成器等各个模块都有可能影响PLM的预测,[5]便从统计视角表明了PLM对各模块中无关因素的敏感性,进而认为在当前PLM-as-KB评估范式下,当前PLM表现的提升并不能证明其更优的知识表示能力。
首先,[5]尝试对prompt的模板进行同义替换,即对于每个谓词构造多个不同但语义等价的表达式,此时,他们观察到模板替换对表现带来的波动是明显的,甚至显著高于不同PLM对结果高低的影响;这说明即便某一PLM取得了表现的提升,它仍有可能是prompt与PLM较好地拟合了数据集的结果,并不能证明PLM更优的知识表示能力。
其次,他们又考察了实体别名对PLM预测的影响。从直觉来看,同一实体的不同别名(如USA和United States)所构建出的prompt对答案无影响;然而,实验结果表明替换实体别名后所有PLM均给出了显著不同的预测,即所有数据中出现预测变化的比例很高。
最后,[5]还探索了预训练语料库的影响;他们发现语料与测试数据越接近,不同PLM的表现均会提升,且不同模型间的表现差距缩小。这说明预训练语料本身对PLM-as-KB任务存在显著影响。综合如上观察,不难发现虽然PLM的预测理论上仅与知识陈述句相关,但其表现对各类等价或无关因素十分敏感,这让我们在当前评测标准范式下很难做出令人信服的优化。
Prompt中各类词的影响
[6]同样探索了多种因素对PLM预测的影响,但他们从prompt中不同的组成词汇入手,以更细的粒度进行了分析。具体地,他们分析如下三类词汇对结果的影响:1) 与知识表示相关(KD)的词汇(如主体与谓词的mention),2) 与掩蔽词相邻的词汇(PC),以及3) 与被掩蔽掉的词汇在语料中频繁共现的词汇(HC)。对于这三类因素,有两个需要解决的问题:其一,PLM倾向于依赖哪些因素;其二,哪些因素真正有助于PLM进行知识解码。
为分析上述两个问题,[6]分别提出了量化这二者的指标。首先,为衡量不同因素对模型预测的影响,他们采用了因果分析中常用的ATE;如下图所示,他们对比将某一因素替换为[MASK]前后的预测结果,加入这一因素带来的正确答案排名提升越大,则该因素ATE越高,说明PLM对其因果依赖越强。
为衡量各因素对知识预测任务的有效性,他们将“有效性”进一步定义为:若一个因素是有效的,则PLM对这一因素依赖越强,其知识预测上的表现越好;很自然地,这可以通过上述因果依赖性与PLM表现的关联曲线来衡量。值得一提的是,PLM在知识预测上取得优良表现,不仅要求它具有高准确率,还需具有较好的鲁棒性,即模型预测的一致性(替换不同prompt模板后预测结果相同的比例)较高;因此,[6]将准确率与一致性相乘来表示模型表现。
有了如上测评指标的定义,即可分析上述两个问题。如下图所示,PLM对KD的依赖最低,但它的有效性反而最高,这说明当前的PLM并不能有效地利用prompt进行鲁棒的知识预测,相反,它很可能拟合了一些无关因素。
总结
本文简述对将PLM作为知识源的一些质疑,它们通过分析PLM在当前prompt+客体预测范式下的行为展现了模型的无效性、有偏性或对数据的过拟合,这推动我们进一步思考PLM-as-KB的任务范式以真正实现向PLM中有效地编码知识。
参考资料
[1] Fabio Petroni, Tim Rocktäschel, Sebastian Riedel, Patrick Lewis, Anton Bakhtin, Yuxiang
Wu, and Alexander Miller. 2019. Language models as knowledge bases? In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 2463–2473.
[2] Adam Roberts, Colin Raffel, and Noam Shazeer. 2020. How much knowledge can you pack into the parameters of a language model? In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 5418–5426.
[3] Tianxing He, Kyunghyun Cho, and James Glass. 2021. An empirical study on few-shot knowledge probing for pretrained language models. arXiv preprint arXiv:2109.02772.
[4] Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun, Lingyong Yan, Meng Liao, Tong Xue, and Jin Xu. 2021. Knowledgeable or educated guess? revisiting language models as knowledge bases. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 1860–1874.
[5] Boxi Cao, Hongyu Lin, Xianpei Han, Fangchao Liu, and Le Sun. 2022. Can prompt probe pretrained language models? understanding the invisible risks from a causal view. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 5796–5808.
[6] Shaobo Li, Xiaoguang Li, Lifeng Shang, Zhenhua Dong, Cheng-Jie Sun, Bingquan Liu, Zhenzhou Ji, Xin Jiang, and Qun Liu. 2022. How pre-trained language models capture factual knowledge? a causal-inspired analysis. In Findings of the Association for Computational Linguistics: ACL 2022, pages 1720–1732.