(七)实体链接与消歧
由于通用知识图谱知识量比较庞大(1.4亿条),会存在大量的实体重名,此时需要进行实体消歧,在实体识别得到结果后,还需要对其进行实体链接,将其链接为知识图谱中的对应实体 。
-
实体链接
实体链接就是将一段文本中的某些字符串映射到知识图谱中对应的实体上。实体链接包过指称识别,大多数研究者通过建立指称-实体字典,进行实体链接。由于通用知识图谱问答具有数据量庞大、知识内容繁多、问题种类复杂等特点,无法通过完全建立指称-实体字典的形式完成实体链接,本文借助ownthink知识库中自带实体的歧义关系,建立常用实体映射、所有实体的ES库、添加实体歧义关系,对于识别得到的实体,若实体在知识库中存在,则获取实体本身及实体歧义关系的相关属性,若实体在知识库中不存在,则通过映射、ES模糊匹配返回对应的实体。
-
实体映射
实体映射即建立常用实体简称-实体全称的映射,在实体识别得到简称时,先将其映射为全称,再进行问答操作。如清华的校长是谁?,映射为清华大学的校长是谁?,映射文本样式如下:
北大:北京大学
人大:中国人民大学
清华:清华大学
北航:北京航空航天大学
北理工:北京理工大学
中国农大:中国农业大学
北师大:北京师范大学…
-
ES实体库
通过建立ES(elasticsearch)的实体库,对于一些输入不全的实体,通过ES模糊匹配查找,即可得到对应实体的得分排序,选取得分最高的一个实体,作为问答的实体。
ES数据格式为json格式数据,示例如下(注意,实体中存在例如姚志明姚志明的重复实体,需将其修改为姚志明实体):
{“Entity”: “词条”}
{“Entity”: “红色食品”}
{“Entity”: “大龙湫”}
{“Entity”: “奥林匹克精神”}
ES数据导入代码:
#coding:utf-8 ''' 将一个知识图谱中的数据导入elastic search,须提前新建index和type '''
-