面向垂直领域的知识预训练语言模型

阿里云云栖号

于 2023-12-07 14:41:30 发布

阅读量1.4k

点赞数 18

分类专栏：云栖号技术分享文章标签：语言模型人工智能自然语言处理阿里云云计算

本文链接：https://blog.csdn.net/yunqiinsight/article/details/134855245

版权

近日，阿里云人工智能平台PAI与华东师范大学数据科学与工程学院合作在自然语言处理顶级会议EMNLP2023上发表基于双曲空间和对比学习的垂直领域预训练语言模型。通过比较垂直领域和开放领域知识图谱数据结构的不同特性，发现在垂直领域的图谱结构具有全局稀疏，局部稠密的特点。为了补足全局稀疏特点，将垂直领域中分层语义信息通过双曲空间注入到预训练模型中。为了利用局部图结构稠密特点，我们利用对比学习构造图结构不同难度的正负样本来进一步加强语义稀疏的问题。

论文：
Ruyao Xu, Taolin Zhang, Chengyu Wang, Zhongjie Duan, Cen Chen, Minghui Qiu, Dawei Cheng, Xiaofeng He, Weining Qian. Learning Knowledge-Enhanced Contextual Language Representations for Domain Natural Language Understanding. EMNLP 2023

背景

知识增强预训练语言模型（KEPLM）通过从大规模知识图（KGs）中注入知识事实来提高各种下游NLP任务的性能。然而，由于缺乏足够的域图语义，这些构建开放域KEPLM的方法很难直接迁移到垂直领域，因为它们缺乏对垂直领域KGs的特性进行深入建模。如下图所示，KG实体相对于纯文本的覆盖率在垂直领域中明显低于开放域，表明领域知识注入存在全局稀疏现象。这意味着将检索到的少数相关三元组直接注入到PLM中对于领域来说可能是不够的。我们进一步注意到，在垂直领域KGs中，最大点双连通分量的比率要高得多，这意味着这些KGs中同一实体类下的实体相互连接更紧密，并表现出局部密度特性。因此，本文研究是基于上述领域KG的数据特性提出了一个简单但有效的统一框架来学习各种垂直领域的KEPLM。

算法概述

为了解决上述垂直领域知识增强框架的问题，KANGAROO模型分别通过双曲空间学习垂直领域图谱数据的分层语义信息来补充全局语义稀疏模块Hyperbolic Knowledge-aware Aggregator，通过捕捉领域图谱稠密的图结构构造基于点双联通分量的对比学习模块Multi-Level Knowledge-aware Augmenter，模型框架图如下所示：