多模态——《Dipping PLMs Sauce》

时光诺言

已于 2024-01-17 21:30:30 修改

阅读量902

点赞数 17

分类专栏：多模态文章标签：神经网络 nlp 算法

于 2024-01-17 20:54:16 首次发布

本文链接：https://blog.csdn.net/weixin_72914660/article/details/135659874

版权

多模态专栏收录该内容

2 篇文章 0 订阅

订阅专栏

多模态——《Dipping PLMs Sauce》

个人理解(写在前面)

1.要解决的难题：将KG的信息引入到基于PLM的KGC模型中

2.过往的工作：

2.1基于大模型调参，只是在上游加入unconditional trainable vectors来辅助下游任务，这样做的好处是既可以提高下游任务的精准度，又可以避免模型全范围的参数更新(上游参数是冻结的)

2.2知识图谱的建立。

3.本文创新点：提出条件软提示(Conditional Soft Prompts for KGC)和局部对抗正则化(Local Adversarial Regularization)来解决上述难题

4.该模型的工作原理：（具体请看后文的标题三）

在这里插入图片描述

4.1生成条件化的提示向量：首先，模型根据知识图谱中的实体和关系嵌入生成提示向量。这些提示向量是“条件化”的，意味着它们是基于特定知识图谱中的实体和关系信息生成的。

4.2创建条件软提示：然后，使用这些实体和关系嵌入来生成条件软提示。这些软提示是专门设计的输入，用于激活和指导预训练语言模型（PLM）的行为。

4.3融合知识和输入PLM：接着，这些条件软提示被送入一个冻结的预训练语言模型中。因为模型是冻结的，所以它的权重在这个过程中不会改变。这一步的目的是融合文本知识（来自实体和关系的描述性文本）和结构知识（来自实体和关系的图形表示）。

4.4使用融合的提示进行预测：融合后的条件软提示被用作输入到基于图的知识图谱补全模型中，用于预测缺失的尾实体，并生成实体的排名结果。

4.5应用局部对抗正则化：最后，模型进一步应用了局部对抗正则化技术，以提升模型区分在文本上相似实体的能力。这一步可能涉及到在模型训练过程中引入干扰或对抗性的样本，以加强模型的区分能力。

Abstract

知识图谱补全（Knowledge Graph Completion，KGC）通常需要结合知识图谱（KG）的结构信息和文本信息才能有效执行。预训练语言模型（Pre-trained Language Models，PLMs）已被用来学习文本信息，通常是在KGC任务的微调范式下进行。然而，微调后的PLMs往往过度专注于文本信息，而忽视了结构知识。为了解决这个问题，本文提出了CSProm-KG（Knowledge Graph Completion的Conditional Soft Prompts，即条件性软提示），它在结构信息和文本知识之间保持平衡。CSProm-KG仅调整由实体和关系表示生成的Conditional Soft Prompts的参数。我们在三个流行的静态KGC基准上验证了CSProm-KG的有效性：WN18RR、FB15K-237和Wikidata5M，以及两个实时KGC基准ICEWS14和ICEWS05-15。CSProm-KG的表现超过了竞争性基线模型，并在这些基准上设定了新的最先进水平。我们还进一步的分析展示了我们提出的组件的有效性（i）、CSProm-KG的效率（ii）和CSProm-KG的灵活性（iii）。

一. Introduction

知识图谱（KGs）具有复杂的图结构和关于事实的丰富文本信息。尽管知识图谱规模庞大，但仍有许多事实缺失。知识图谱补全（KGC）是一个基本任务，目的是从现有的KG信息中推断出缺失的事实。基于图的KGC模型（Bordes等人，2013年；Yang等人，2015年；Dettmers等人，2018年）通过可训练的嵌入表示实体和关系。这些模型被训练用以保持实体和关系在结构路径上的连接。

尽管这些方法在建模KG结构信息方面有效，但它们无法融合语言上下文。最近，预训练语言模型（PLMs）被应用于填补这一差距（Yao等人，2019年；Wang等人，2021年a；Xie等人，2022年）。提出的解决方案通常直接对PLM进行微调，以选择正确的实体，要么依赖于纯文本上下文，要么使用结构附加组件作为补充（Wang等人，2021年a）。然而，PLMs通常具备大规模的参数和从预训练阶段获得的语言继承性。因此，这些基于PLM的模型仍然过分专注于KG中的文本信息，并倾向于忽视图结构。例如，在一个不完整的事实（蒙娜丽莎，被…画）中，基于PLM的模型可能会忽略图结构而仅专注于文本信息。比如可能会因为文本上的相似性而将不相关的实体（如Leonardo DiCaprio和Leonardo da Vinci）混淆。因此，本文集中讨论这个研究问题：我们能否有效地将KG的结构信息融合到基于PLM的KGC模型中？

我们在不同的KGC任务上评估了CSProm-KG，并在WN18RR、FB15K-237和Wikidata5M数据集上进行了静态KGC（SKGC）的实验，以及在ICEWS14和ICEWS05-15数据集上进行了时态KGC（TKGC）的实验。CSProm-KG在一系列有竞争力的基线模型上表现优异，这些模型包括基于图的和基于PLM的模型。我们进行了消融研究以显示基于提示的方法相对于微调方法的优势以及每个提议组件的有效性。我们还展示了CSProm-KG与不同基于图的模型的灵活性以及CSProm-KG的训练和推理效率。

二. Related Work

基于图的方法：这些方法通过学习知识图谱的空间结构来表示每个实体和关系的连续向量。它们使用这些嵌入来计算实体间的距离和KG查询，以确定正确的实体。训练目标是给真实事实分配比无效事实更高的分数。

静态KGC任务中的方法：
- 翻译距离方法：这类方法衡量一个事实的合理性，作为两个实体之间的距离（例如，Bordes等人2013年的工作，Lin等人2015年的工作，Wang等人2014年的工作）。
- 语义匹配方法：这些方法计算实体和关系的潜在语义（例如，Nickel等人2011年的工作，Yang等人2015年的工作，Dettmers等人2018年的工作）。
时态KGC任务中的方法：这些系统通常基于SKGC方法，并添加额外的模块来处理知识图谱事实元组的时间戳（例如，Dasgupta等人2018年的工作，Goel等人2020年的工作，Han等人2021年的工作）。

2.基于PLM的方法：基于PLM的方法使用它们对应的文本来表示实体和关系。这些方法引入PLM来编码文本，并使用PLM输出来评估给定事实的合理性。在SKGC上，Yao等人（2019）编码一个事实的组合文本，然后使用一个二分类器来确定其合理性。为了减少Yao等人（2019）提出方法的推理成本，Wang等人（2021a）利用孪生网络分别编码（h, r）和t。与之前仅编码模型不同，Xie等人（2022）；Saxena等人（2022）探索了Seq2Seq PLM模型直接在KGC任务上生成目标实体文本。

提示调整：Brown等人（2020）首先证明了在GPT-3模型中手动设计文本模板（提示）的有效性。Wallace等人（2019）和Shin等人（2020）扩展了这一范式，并提出了硬提示方法来自动寻找最佳的任务特定模板。然而，选择离散的提示需要人力努力，并且难以与下游任务以端到端的方式一起优化。Li和Liang（2021）、Lester等人（2021）通过在冻结的PLM中使用可训练的连续向量（软提示）来放松了离散模板的限制。正如Li和Liang（2021）、Lester等人（2021）、Liu等人（2021）所展示的，即使参数数量远少于完全可训练的PLM模型，带有软提示的冻结PLM也能在各种自然语言处理任务上取得相当的性能。据我们所知，我们是第一个将软提示应用于基于PLM的KGC模型的。

三. Method

在这里插入图片描述

3.1 Knowledge Graph Completion

在这里插入图片描述
---------------------------------------------------模型总设计图-------------------------------------------------

3.2 CSProm-KG 概述

在这里插入图片描述

3.3 Graph-based KGC Model G

在CSProm-KG中，基于图的KGC模型G将KG实体和关系表示为连续嵌入。给定一个KG查询(h, r， ?， m)，我们将h和r表示为嵌入Ee和Er∈Rd，其中d为嵌入大小。Ee和Er同时用于输入和输出。在输入端，我们使用这些嵌入来生成条件软提示，它进一步与冻结PLM p的文本输入交互。在输出端，我们使用这些嵌入来计算f(h, r, t, m)，从而为KG查询生成实体排名。例如，当使用ConvE作为G时，对应的f(h, r, t, m)是(h, r)表示与尾部实体嵌入之间的点积。注意，CSProm-KG足够灵活，可以很好地与任何现有的基于图的KGC模型一起工作。我们将在第二节展示这种灵活性。

简单来说，就是嵌入层的向量在PLM和输入端以及G的最终输出端都被使用了

3.4 Pre-trained Language Model P

假设预训练的语言模型P有L个隐藏大小为h的Transformer层。为了表示一个KG查询(h, r， ?， m)，我们联合表示H, r和m通过提取和连接它们对应的原始标记，包括它们的名称和相应的描述(如果可用)。我们用一个特殊的令牌[SEP]将h和r的文本连接起来，并将联合文本输入到冻结的PLM p中。对于TKGC任务，我们只需在h和r的联合文本之后添加事件时间戳。我们在第4.2节中展示了这种设计选择的有效性。

3.5 Conditional Soft Prompt S

在这里插入图片描述

3.6 Local Adversarial Regularization

在这里插入图片描述

这是局部对抗正则化的损失函数，需要解释的是，里面的f(h,r,t,m)得到的是一个得分，这个得分越高，表示这个四元组一起出现的概率(即正确概率)越高，所以我们希望两个f的差值越大越好， γ是一个保证项，我认为它是正负其实并不重要，当差值再加上 γ大于0的时候，损失函数会选择前者。只有当差值缩小到我们期望的一个范围时，导致加上 γ的结果比0小，这时损失函数的值就是0了，这表示达到预期，模型不会接收任何惩罚。

3.7 Training and Inference

在这里插入图片描述

这就是所有模块的损失函数，(5)中主要是知识图谱的最终输出的损失，Ll部分就是对抗正则化部分了。

四. Experiments

4.1 对比实验部分

实验部分就不展开细说了，这里对比实验部分只放两张表，分别对应静态知识图谱和时序知识图谱（都是数据集的性质）

在这里插入图片描述
静态知识图谱

在这里插入图片描述

时序知识图谱

其中各项指标的含义：

MRR (Mean Reciprocal Rank): 平均倒数排名。这是一个评估整个结果列表质量的指标，计算的是所有查询的倒数排名的平均值。如果模型能够将正确的答案排在前面，MRR值会更高。
Hits@1 (H@1): 准确率@1，即模型预测的第一个结果是正确答案的比例。这是一个严格的指标，因为它只考虑排在最顶部的答案。
Hits@3 (H@3): 准确率@3，即正确答案出现在模型预测的前三个结果中的比例。
Hits@10 (H@10): 准确率@10，即正确答案出现在模型预测的前十个结果中的比例。这是一个宽松的指标，因为它允许正确答案出现在较低的排名中

4.1 消融实验部分

在这里插入图片描述

CSProm-KG: 原始模型。
CSProm-KG w/ Separated Strategy: 使用了分离策略的模型，可能指在训练过程中对不同部分使用了不同的策略。
CSProm-KG w/o Graph KGC model: 没有使用基于图的KGC模型的CSProm-KG。
CSProm-KG w/ non-LW Soft Prompt: 使用非分层（Layerwise）软提示的CSProm-KG。

接下来是关于局部对抗性正则化（LAR）的不同配置：

CSProm-KG w/o LAR: 没有使用局部对抗性正则化的CSProm-KG。
CSProm-KG w/ LAR from Name: 使用从名称派生的LAR的CSProm-KG。
CSProm-KG w/ LAR from Description: 使用从描述派生的LAR的CSProm-KG。
CSProm-KG w/ Random LAR: 使用随机LAR的CSProm-KG。

还有一些关于模型冻结层的实验：

CSProm-KG w/ the last layer tunable: 最后一层可调的CSProm-KG。
CSProm-KG w/ the last 4 layers tunable: 最后四层可调的CSProm-KG。
CSProm-KG w/ the last 6 layers tunable: 最后六层可调的CSProm-KG。
CSProm-KG w/ fully finetune: 完全微调的CSProm-KG。

最后是一个集成模型，它可能结合了多个模型的预测：

Ensemble model: 集成了多个模型的综合模型。

五. Conclusion and Future Work

本文提出了一种基于plm的KGC模型CSProm-KG，该模型有效地融合了KG结构知识，避免了对文本信息的过度拟合。CSProm-KG的关键创新是连接基于图的KGC模型和冻结PLM之间的条件软提示，避免了文本过拟合问题。我们在SKGC和TKGC设置下对五种流行的KGC基准进行了实验，结果表明CSProm-KG优于几种强大的基于图和基于plm的KGC模型。我们还展示了CSProm-KG的效率和灵活性。对于未来的工作，我们计划将我们的方法应用于其他相关的知识密集型下游任务，如事实检查和开放式问题回答。

六. Limitations

CSProm-KG成功地在KGC任务中集成了基于图形和文本的表示，实现了显著的性能和效率提高。然而，与其他基于plm的方法类似，这是以增加计算资源为代价的(与基于图的KGC模型相比)。此外，我们发现在特定随机种子下，CSProm-KG可能偶尔会在小型KGC基准(例如WN18RR)上崩溃。这可能是由于软提示的性质，与微调模型相比，它涉及的可训练参数数量要少得多。然而，在大型KGC基准(例如Wikidata5M)中训练CSProm-KG时，我们从未看到类似的现象。我们计划在以后的工作中为CSProm-KG解决这些问题。