论文导读 | 关于将预训练语言模型作为知识库的分析与批评

摘要

近来预训练语言模型(Pretrained Language Models,PLM)得到了蓬勃的发展,由于其对语言的端到端建模特性及巨大的参数量,一些研究尝试利用它存储事实类知识(Factual Knowledge)进而替代具有较高使用门槛的知识库(Knowledge Base,KB),即PLM-as-KB。为探测PLM中是否具有某一则知识三元组,这些研究通常通过构建一则prompt以让PLM预测三元组的客体,一系列关于prompt调优、少样本学习的工作在这一任务范式上取得了不俗的效果。然而,在这些成果的背后,关于PLM给出知识预测的内在机制的分析始终是较为缺乏的,这让我们很难断定当前的任务范式及研究进展是否有助于PLM真正编码、理解知识;今天我们便介绍关于PLM进行知识解码之机制与行为的一些分析性研究,它们展示了各类因素对PLM的知识预测结果的影响,进而构成了对当前设定下PLM替代KB作为知识源的质疑。

背景:PLM-as-KB

知识图谱(Knowledge Base,KB)是目前普遍的知识存储引擎,尽管其为知识查询提供了高效、功能丰富的查询接口(如SPARQL),但也对普通用户的使用、各类NLP模型与其的交互造成了一定的困难。一些研究已经证实,预训练语言模型(Pretrained Language Models,PLM)具有一定的存储信息、回答问题能力,这提示我们PLM本身或许可以替代KB存储知识并以自然语言问答的形式提供知识查询接口。[1]便是一篇关于将PLM作为KB的开拓性研究,它定义了PLM中知识探测的客体预测范式:对于一条知识三元组<s,p,o>(如<Dante, Born_in, Florence>),他们构建一条类似于问题的自然语言prompt表示s和p(如Dante was born in [MASK])并输入给PLM,若模型能输出正确的客体o(即Florence),则视为PLM可成功解码出这一条知识。这样,只需对不同知识构建相应的prompt即可从PLM中查询知识。

在此基础上,许多工作对其提出了改进,例如引入额外的示例数据(prompt-正确答案对)以辅助PLM进行更准确的预测[2];此外也可通过优化prompt来实现更强的知识表示性能[3]。这些方法固然在客体预测中取得了不俗的表现,但他们都没有进一步分析导致PLM做出正确或错误预测的原因,进而很难断定上述表现是否能真正反映出PLM的知识表示能力;对此,一系列研究便尝试分析了上述客体预测范式中各类因素的影响,进而一定程度地质疑了PLM-as-KB的有效性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值