【Ditto】Deep Entity Matching with Pre-Trained Language Models

最新推荐文章于 2024-12-28 11:42:29 发布

逆『』暖

最新推荐文章于 2024-12-28 11:42:29 发布

阅读量535

点赞数

分类专栏：深度学习文章标签：语言模型 r语言人工智能

本文链接：https://blog.csdn.net/weixin_44513527/article/details/123828419

版权

深度学习专栏收录该内容

1 篇文章

订阅专栏

Ditto是一个基于预训练Transformer模型的实体匹配系统，如BERT和RoBERTa，它在大型文本数据上表现出色，提升F1分数最高可达29%。通过引入领域知识、字段标准化、概括和数据增强等优化技术，Ditto能有效处理实体匹配任务，甚至使用更少的标注数据就能达到先前的SOTA结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ditto项目地址
 文章地址
 ditto的colab代码示例

摘要

本文提出了一种基于预训练Transformer语言模型的实体匹配系统。实验表明，在大型文本语料库上预训练的语言模型(如BERT、DistilBERT或RoBERTa)的直接应用已经显著提高了匹配质量，并超过了之前最好的表现，在基准数据集上 $f_{1} score$ 提升了高达29%。文中还提出了三种优化技术来进一步提高Ditto的匹配能力。另外还发现ditto最多用以前一半的标记数据就可以实现以前的SOTA结果。最后文章证明了Ditto在现实世界大规模实体匹配任务中的有效性：在匹配由789K和412K记录组成的两个公司数据集时，Ditto获得了96.5%的 $f_{1} score$ 。

ditto模型

Ditto的模型框架

Ditto的输入

对每个实体元组
在这里插入图片描述
序列化结果为

例如：
序列化结果：
[COL] title [VAL] instant immers spanish dlux 2 [COL] manf./modelno [VAL] NULL [COL] price [VAL] 36.11
对于候选实体对，序列化结果为：

[CLS]是BERT将序列对编码为768维向量所需的特殊标记，该向量将送到全连接层中进行分类。
这里的全连接层指ditto模型中特定于任务的微调结构（Bert模型的微调部分）的一部分，它在语言模型之后。ditto模型的微调结构（Task-specific）包括一个简单的全连接层和一个用于二元分类的softmax输出层

Ditto的优化

1.引入领域知识(Inject Domain-Knowledge)

①　标记分类的重要字段(Span typing)
首先利用命名实体识别（NER）识别输入序列 $serialize(e,{e}')$ 中的关键标签，并输出起始/结束位置的index和规范化的token名。利用该结果对序列重新序列化，加入特殊标签。
例如：输入序列属性电话号码中的后四位很重要，那么就将”(866) 246-6453”修改为”(866) 246-[LAST]6453[/LAST]”
如果序列对中的两个序列都有该标签，Ditto可以将两个内容对齐进行匹配判断，从而不必考虑其他属性、属性值。
②　字段标准化(Span normalization)
Ditto设定规则并基于规则对语法上不同但等效的字段重写为同一字符串。
例如：“VLDB joural”和“VLDBJ”都写成VLDBJ；整数都不带逗号；小数部分都保留两位…

2.概括(Summarization)

对长字段进行概括。利用TF-IDF提取重要信息，限制最大长度。

3.数据增强

①　EM的数据增强操作
删除某一字段、打乱某一字段，删除某一属性（包括属性名和属性值）、打乱属性顺序（属性名和属性值）、交换两个实体顺序
在这里插入图片描述
除了扩大了训练集，删除某一字段、打乱某一字段、删除某一属性可以训练模型去关注其他属性、字段；打乱属性顺序使判断不依赖于属性顺序；交换两个实体顺序符合对称性。
②　MixDA
①中的操作有可能直接改变了匹配结果，或删除操作执行之后剩下的都是无用消息。使用MixDA技术使得得到的训练样本介于原始样本和①操作之间：
由于LM被调用了两次，使用MixDA进行扩充会减慢训练时间。但预测（match步骤）的时间不受影响（预测时不使用MixDA）。

从带超参数α∈ [0,1]（例如实验中取得0.8）的β分布λ~β（α，α）中随机取样λ
用LM（s）表示序列s的LM输出，进行以下操作：
也就是说， $LM\left ({s}'' \right )$ 是s和数据增强结果 ${s}'=augment\left ( s,o \right )$ 的LM输出的凸插值；
通过将 $LM\left ({s}'' \right )$ 输入到网络的其余部分并反向传播来训练模型。反向传播同时更新LM和线性层的参数。