A Survey on Knowledge-Enhanced Pre-trained Language Models

最新推荐文章于 2024-09-15 17:22:56 发布

小蜗子

最新推荐文章于 2024-09-15 17:22:56 发布

阅读量873

点赞数

分类专栏：知识图谱的文本动态补全文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/weixin_44466434/article/details/132489984

版权

知识图谱的文本动态补全专栏收录该内容

29 篇文章 9 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文深入探讨了知识增强预训练语言模型(KEPLMs)，概述了KEPLMs中的知识类型和格式，介绍了构建和评估方法，讨论了它们在NLP任务中的应用及未来发展方向。KEPLMs通过整合外部知识，提高了模型的可解释性、鲁棒性和推理能力，有望克服传统PLM的局限性。

摘要由CSDN通过智能技术生成

摘要

自然语言处理(NLP)已经通过使用BERT等预训练语言模型(plm)发生了革命性的变化。尽管几乎在每个NLP任务中都创造了新的记录，但plm仍然面临许多挑战，包括可解释性差，推理能力弱，以及在应用于下游任务时需要大量昂贵的注释数据。通过将外部知识集成到plm中，知识增强预训练语言模型(keplm)具有克服上述限制的潜力。本文通过一系列的研究，对KEPLMs进行了系统的考察。具体而言，我们概述了KEPLMs中常见的知识类型和不同的知识格式，详细介绍了现有的构建和评估KEPLMs的方法，介绍了KEPLMs在下游任务中的应用，并讨论了未来的研究方向。研究人员将从这项调查中受益，获得该领域最新发展的快速和全面的概述。

1.介绍

重新训练的语言模型(plm)首先在一个大数据集上进行训练，然后直接转移到下游任务，或者在另一个小数据集上进一步微调以用于特定的NLP任务。早期的plm，如Skip-Gram[1]和GloVe[2]，是浅层神经网络，它们的词嵌入(从窗口大小的上下文中学习)是静态语义向量，这使得它们无法处理动态环境中的多义词问题。随着深度学习的发展，研究人员试图利用深度神经网络通过动态语义嵌入来提高任务的性能。起初，人们仍然局限于监督学习的范式，认为如果没有足够的标记数据，就很难释放深度学习的潜力。然而，随着自监督学