实体链接在小布助手和OGraph的实践应用

本文介绍了实体链接在小布助手和OGraph中的应用,解决实体歧义问题。通过实体识别、候选实体召回和实体消歧技术,提高智能助手的精准问答能力。利用知识图谱OGraph,结合预训练模型和多任务模型框架,实现高效实体链接,提升用户体验。
摘要由CSDN通过智能技术生成

1 问题背景

精准直达的知识问答能力对营造小布“懂知识、更懂你”的形象非常重要。在语音助手场景,经常会出现一词多义或者口语化表达等问题。例如:李白出装,李白的诗,播放李白。第一李白是指游戏角色,第二个是指诗人李白,第三个是指歌曲李白。如何精确识别用户所指、给出正确的答案是小布助手面临的挑战。
在这里插入图片描述
知识图谱是让机器理解客观世界的基石,拥有极强的表达能力和建模灵活性。目前OPPO自建知识图谱OGraph已经积累了数亿实体和数十亿关系。接下来让我们看看小布和Ograph将如何碰撞,通过实体链接技术解决实体歧义问题,帮助小布做能听、会说、更懂你的智能助手。

图:小布助手KBQA流程

2 任务介绍

实体链接是NLP、知识图谱领域的基础任务,即对于给定的一个中文文本,将其中的实体描述(mention)与给定知识库中对应的实体进行关联的任务。

2009年在TAC会议上第一次提出实体链接任务,2014年深度学习流行之前都是通过统计特征和基于图的方法进行实体链接。2017年提出了Deep Joint方案,使用Attention结构进行语义匹配来实体消歧。后面该团队通过模型结构创新,实现了同一个模型同时实体识别和消歧,消歧依旧使用Attention。2018年提出了Deep Type方案,将消歧问题转化为实体分类,得到实体类别后,通过Link Count确定要链接到的实体。2020年预训练语言模型开始流行,Entity Knowledge方案借助大量的语料和强大的预训练模型,用序列标注的方式进行实体链接。
图:实体链接发展历程

3 技术方案

实体链接通常会被拆分为三个子任务:实体识别、候选实体召回、实体消歧。
图:实体链接流程示意

3.1 实体识别

实体识别的作用是识别出query中的实体描述(即mention),例如李白所在朝代皇帝是谁中的李白即为要识别的mention。在进行通用领域实体识别时,实体量级大、类型多、说法多样,因此方案要兼顾效率和泛化。

小布助手开发了基于词典的实体识别使用自研匹配工具Word Parser,该工具无论是在性能还是功能都较开源工具有优势。
在这里插入图片描述
实体链接中并不关心实体类型,因此实体识别可以使用 B/I 标签或者指针标注的模式,同时为了提升输入信息的丰富程度,引入词汇信息作为特征补充,试验了 Lattice LSTM 和 FLAT 等结构,实体识别效果提升约 1%。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值