读论文 | Entity Resolution with Hierarchical Graph Attention Networks

歪踢233

于 2022-12-31 00:07:35 发布

阅读量506

点赞数 1

分类专栏： paper 文章标签：数据挖掘

本文链接：https://blog.csdn.net/weixin_56469436/article/details/128466701

版权

paper 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文探讨了实体解析（ER）的关键问题，尤其是属性间的相互依赖。提出了层次图注意网络（HierGAT）模型，该模型结合了Transformer和图注意力网络，以捕捉实体、属性和单词的上下文信息。HierGAT能有效处理异构数据源中的脏数据，提升ER的性能，尤其在集体ER决策中表现出色。实验结果表明HierGAT在多款基线模型上取得最优效果，且对数据质量变化具有鲁棒性。

摘要由CSDN通过智能技术生成

我的目的

要研究的是entity resolution(实体解析），从这篇文献中学习hierarchical graph attention networks（层次图注意网络）方法，还要阅读对比方法的论文，分析优劣，将研究结果呈现于ppt。

论文中一些比较关键的概念

实体解析：实体解析（ER）是数据集成的核心问题，又称为实体匹配（Entity Matching）。是指从给定的两张关系表中找出所有代表相同实体的元组。实体解析（ER）是一种用于判断两条记录是否指向同一事物的过程。实体这个术语描述了过程的目标是真实世界的事物，比如某个人，地点或者物品。而解析则描述了回答这样的一个问题的过程：两条不同记录是否指向了同一个真实实体？

Graph Attention Network (GAT) 通过学习邻居的权重，GAT 可以实现对邻居的加权聚合。因此，GAT 不仅对于噪音邻居较为鲁棒，注意力机制也赋予了模型一定的可解释性。其思想是计算图中每个节点的隐藏表示，通过关注它的邻居，遵循一个自我注意策略。

异构数据源（disparate data source）广义上讲是指数据结构、存取方式、形式不一样的多个数据源。如，在一个系统中，同时包含由关系型数据库Oracle/SQL SERVER/MYSQL、EXCEL文件或txt文本数据、XML数据等不同的数据源的一个整体，就是一个异构的数据源。

脏数据是指源系统中的数据不在给定的范围内或对于实际业务毫无意义，或是数据格式非法，以及在源系统中存在不规范的编码和含糊的业务逻辑。

摘要

实体解析（ER）将引用来自不同来源的相同真实世界实体的实体链接起来。
现有ER方法主要关注属性相似性比较，忽略了属性内在联系。
由此提出HierGAT——基于Hierarchical Graph Attention Transformer Network
可以建模和利用ER之间的相互依赖性
好处：用于joint ER decisions；从属性中找到最有区别的属性；
此外，建议学习上下文嵌入来丰富单词嵌入，以获得更好的性能。

关键词

实体分辨率，集体实体链接，层次异构图，图注意网络

INTRODUCTION

实体解析（ER）的目的是查找两个数据实体是否引用同一实体。
ER是在许多应用程序中使用的一项基本任务。然而，ER仍然是一项重要的任务，因为自然语言文本由于语境信息的质量和主题的一致性，往往有消歧的困难。

比如，一对实体有很多相同的词语就会被看作是匹配，但实际上指两个不同的东西。这是因为基于递归神经网络（RNN）的模型表示具有嵌入的文本描述，而没有给出“大数据”和“聚类”等更高的权重。（见图1上部分）
因此，基于RNN的模型很难区分内容相似的两个条目，导致不正确的ER结果。

因此，识别鉴别特征和分配不同的权重是很重要的。
成功的ER面临的一个关键挑战是弄清楚如何捕获语义和潜在的上下文。

最近的ER模型将属性文本嵌入到语义分布中，从而将ER问题转化为语义匹配问题。
然而这个有两个弱点。1)他们通常假设所有的单词和属性对一个实体都是同等重要的，而这个实体往往不能识别有区别的单词，并赋予重要的单词更高的权重。2)实体描述通常包括模棱两可的短语。一个在不同领域/类别中的单词可能是多义的或有不同的含义。

为了解决第一个弱点（权重问题），我们提出扩展图神经网络方法来表征单词的重要性，并捕获一个单词及其上下文的语义关系。具体地说，我们提出了一种新的图类型，称为层次异构图（HHG），来表示实体、属性和单词。它可以捕获实体-实体关系、属性-实体关系和单词-属性关系。因此能对同一单词在不同条件下分配不同权重。

为解决第二个问题，多义词，我们采用上下文嵌入技术。传统的单词嵌入技术学习一个全局的单词嵌入，它忽略了局部的上下文信息。采用上下文嵌入方法，通过考虑句子中所有单词的序列来学习序列级语义。这种技术可以根据上下文学习多义词的不同表示。

ER模型可分为两组：成对ER模型和集体ER模型。
成对模型以实体对作为输入，并根据每对实体的特征独立地解析ER。
由于同一文档中包含的实体通常是语义相关的，集体ER模型共同确定相关实体对的实体匹配。（Q1这有啥因果关系吗，集体ER指要集体地解析？）然而，它们基于给定的知识库来解决ER，这在异构数据源中通常是不可用的。

为了克服上述缺点，我们提出了一种新的基于HHG的层次图注意变换模型（HierGAT）为了克服上述缺点，我们提出了一种新的基于HHG的层次图注意变换模型（HierGAT）。HierGAT1首次结合了自注意机制和图注意网络机制来解决ER问题。变换模型中的自注意机制能够有效地捕获文本的语义和上下文信息，层次图注意模型能够更好地聚合各种类型的信息以学习更好的嵌入。首先，HierGAT使用变压器，它可以生成高度上下文化的嵌入，并基于自我注意机制来识别区分词。其次，HierGAT进一步利用层次图注意网络模型来识别重要特征，从而学习更好的实体嵌入，从而优化匹配性能。在成对ER模型HierGAT的基础上，我们进一步提出了一个集体ER模型HierGAT+，该模型联合确定了一个图中的多个候选对是否存在匹配。HierGAT+能够利用实体之间的关系来获得更好的准确性。

贡献总结：
（1）定义了层次异构图（HHG）来描述实体以及它们的属性和单词，它能够捕获多种类型的关系，包括实体-实体关系、属性-实体关系和标记-属性关系。这种表示方式使我们能够设计一种学习实体嵌入的新方法。
（2）我们提出了一种新的解决方案，称为层次图注意变换器（HierGAT），它结合了变换器注意机制和层次图注意网络模型来学习HHG中的节点表示。
（3）建议学习上下文嵌入来丰富单词嵌入，以提高更好的性能。为了学习实体相似性嵌入，我们在HierGAT中引入了多视图方法。我们将实体之间的比较转换为它们的视图之间的比较。
（4）我们提出了一个基于HHG的集体ER模型HierGAT+，其中一个查询实体和候选对象被表示在一个图中，用于ER决策。
（5）实验表明HierGAT比DeepMatcher和Ditto效果好，且对于dirty dataset有鲁棒性。

PROBLEM FORMULATION

1.实体解析
依次配对
ER: blocking/matching
本文主要讨论matching，blocking用词匹配来筛。

2.HHG
HHG的优点：1）HHG保留了一个实体的层次结构，我们可以通过遵循HHG中的层次结构，从下到上学习嵌入的实体。与现有ER方法中使用的成对依赖模型相比，HHG可以看作是一个全局相互依赖模型，它捕获更多的上下文信息来推导实体嵌入。2）与一个查询实体对应的多个候选实体可以表示在一个图中。该表示对于集体ER决策特别有用，其中查询实体𝑒𝑞及其候选对象在实体层中被连接。（结点间的匹配都表示在一个结构里）

HHG构建：把属性碎片化成word

3.HIERGAT框架

Blocker：key-word filtering筛掉明显不匹配的简化
HierGAT:其目的是生成实体嵌入和实体相似性嵌入
Classifier:最终将ER问题表述为一个二元分类问题。我们将HierGAT的结果作为分类器的输入，以确定两个实体是匹配还是不匹配

4.计算上下文嵌入
1）面临的挑战：
不认识的词：FastText 是一种字符级嵌入，它通过字符n-克的向量表示的和为未知词构造一个嵌入。因此，每个未知词都得到了不同的嵌入，但嵌入可能不能很好地捕获一个单词的语义。（对比：DeepER用已知单词的平均共现来表示未知，然而，平均使普通单词更有影响力，因此未知单词的嵌入往往是相似的。）
Word上下文获取：一词多义，现有方法没考虑上下文多义。RNN模型提供了一种将单词嵌入与来自周围单词的上下文信息集成起来的方法。模型容易受到数据异构性的影响。在DeepMatcher中，提出了一种针对候选实体对的共享词的附加对齐操作。该操作旨在消除词序列不一致的影响。

2）解决方案
建议构建HHG，其中上下文信息在邻居节点之间传播，就像图神经网络（GNN）一样。先有初始嵌入值，再用上下文嵌入去调整这个值。HierGAT利用了三种类型的上下文信息：token级上下文捕获句子中的语义意义，属性级上下文捕获属性的语义意义，而实体级上下文学习常见单词的冗余信息。（对比：现有的方法一般只看句子）

5.分层聚合和比较
Hierarchical Aggregation for Entity：
问题：RNN网络没有包含token的重要性和位置信息。Transformer-based approach可以克服这些问题，但没有考虑实体的结构信息，因为它将所有属性组合到一个句子中，以学习实体嵌入。
解决：我们提出将Transformer和图注意网络（GAT）机制相结合，进行分层聚合，以获得实体嵌入。该方法能捕获实体的结构信息，并区分token在学习嵌入中的重要性。现有的成对ER模型单独解决了成对比较，这并不捕获实体交互。
1）Attribute Summarization Layer：将WpC嵌入和HHG的token-attribute子图作为输入，并将生成属性嵌入。获取属性嵌入的挑战有两个方面：首先，一个属性中的单词具有不同的重要性。第二，不同的属性对同一个词也有不同的重要性。受Transformer中用于区分重要性的self-attention
mechanism的启发，我们使用它来区分重要的上下文词，以聚合标记节点的嵌入。
2）Entity Summarization Layer：在这一层中，我们以HHG的属性嵌入和属性-实体子图作为输入，并通过连接属性嵌入来生成实体嵌入。（获取嵌入层层结合的方式）

Hierarchical Comparison for Entity：
计算实体之间的相似嵌入，这将用作分类器的输入。该比较有两个主要步骤：属性比较和实体比较。通过使用匹配关系网络和实体对齐层，我们将成对模型HierGAT扩展到一个名为HierGAT+的集体模型，该模型可以确定多个候选模型的匹配。

训练过程

实验
1）成对ER
根据数据集等的不同，几种实体解析方法的比较。
2）集体ER实验
3）结果分析
4）总结
成对模型HierGAT在所有数据集上都取得了最好的性能，并比最佳基线提高了8.7%。HierGAT在脏数据集上具有更好的鲁棒性。我们还验证了HierGAT在不同的预训练语言模型上是可推广的。HierGAT在具有不同标记数据量的WDC数据集上取得了稳定的结果。HierGAT需要1/2的训练样本能获得与Ditto相似的结果。与deep匹配器相比，HierGAT只需要1/8的训练样本就可以达到相似的性能。
对于集体模型HierGAT+，我们构建了7个新的数据集来评估所提模型的有效性。实验结果表明，在候选集内保持这些关系是有效的。在麦哲伦数据集上，HierGAT+将HierGAT的F1分数平均提高了4.3%

相关工作
实体解析已经被广泛研究了几十年，并且仍然受到持续关注。目前已经提出了许多方法来推进该领域，可分为三种类型： 1)基于规则的方法需要设计规则和设置阈值；2)基于机器学习的模型需要特征工程来学习分类器。3)基于众包的方法依赖于大量的人力努力。

总结
在本文中，建议使用HHG来表示实体，它可以捕获实体之间的多种关系。我们提出了一个成对的ER模型HierGAT和一个集体的ER模型HierGAT+，它们将图注意模型与变压器结合起来。实验结果表明，HierGAT的性能显著优于基线水平。此外，与现有方法相比，HierGAT在脏数据集或标签更少的数据集上也表现得更好。一个有趣的未来方向是将HierGAT扩展到未对齐属性的设置。