知识图谱问答系列文档(七)——从零开始搭建一个通用知识图谱问答【实体连接与消歧】

本文探讨了在通用知识图谱问答中如何处理实体链接与消歧的问题。通过实体链接将文本中的字符串映射到知识图谱实体,利用实体映射解决简称与全称的对应,并通过ES实体库进行模糊匹配。实体消歧则采用歧义权重方法,根据权重和属性相似度确定正确实体。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

(七)实体链接与消歧

由于通用知识图谱知识量比较庞大(1.4亿条),会存在大量的实体重名,此时需要进行实体消歧,在实体识别得到结果后,还需要对其进行实体链接,将其链接为知识图谱中的对应实体 。

  • 实体链接

    实体链接就是将一段文本中的某些字符串映射到知识图谱中对应的实体上。实体链接包过指称识别,大多数研究者通过建立指称-实体字典,进行实体链接。由于通用知识图谱问答具有数据量庞大、知识内容繁多、问题种类复杂等特点,无法通过完全建立指称-实体字典的形式完成实体链接,本文借助ownthink知识库中自带实体的歧义关系,建立常用实体映射、所有实体的ES库、添加实体歧义关系,对于识别得到的实体,若实体在知识库中存在,则获取实体本身及实体歧义关系的相关属性,若实体在知识库中不存在,则通过映射、ES模糊匹配返回对应的实体。

    • 实体映射

      实体映射即建立常用实体简称-实体全称的映射,在实体识别得到简称时,先将其映射为全称,再进行问答操作。如清华的校长是谁?,映射为清华大学的校长是谁?,映射文本样式如下:

      北大:北京大学
      人大:中国人民大学
      清华:清华大学
      北航:北京航空航天大学
      北理工:北京理工大学
      中国农大:中国农业大学
      北师大:北京师范大学

    • ES实体库

      通过建立ES(elasticsearch)的实体库,对于一些输入不全的实体,通过ES模糊匹配查找,即可得到对应实体的得分排序,选取得分最高的一个实体,作为问答的实体。

      ES数据格式为json格式数据,示例如下(注意,实体中存在例如姚志明姚志明的重复实体,需将其修改为姚志明实体):

      {“Entity”: “词条”}

      {“Entity”: “红色食品”}

      {“Entity”: “大龙湫”}

      {“Entity”: “奥林匹克精神”}

      ES数据导入代码:

      #coding:utf-8
      '''
      将一个知识图谱中的数据导入elastic search,须提前新建index和type
      '''
      
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值