【知识图谱】介绍

概念介绍

知识图谱的概念,由google于2012年率先提出,其初衷是用以增强自家的搜索引擎的功能和提高搜索结果质量,使得用户无需通过点击多个连接就可以获取结构化的搜索结果,并且提供一定的推理功能,但以目前各种chatbot的发展趋势来看,语义交互可能也会成为后期一个重要的搜索入口。我们可以看一个例子。
在google中输入:杭州景点,能够得到结构化的展现
google_hz

google知识图谱图谱的前身是雅虎的研究员在09年提出的概念网络,其数据来源除了自身的搜索日志,还有其收购的freebase(2014年关闭),wikipedia等。目前已经广泛应用在其搜索引擎,并不断融合多领域的知识(目前已知的除了基本的ner五大要素之外,还有健康图谱和购物图谱)。另外,微软也在做自己的概念图谱probase,目前提供了升级的测试功能。目前来看,国内真正可以称为拥有了图谱化数据的只有两家,百度知心和搜狗知立方。

关键点:

基于现有的知识图谱相关的技术点,可以把知识图谱相关的技术抽象为如下4点,包含了算法和部分工程所需,其中1-3主要是知识库构建的相关工作,可以看做是离线的部分,而4可以作为在线使用知识的方式。

1.知识获取

结构化信息:网络爬虫

通过爬虫,可以爬到网页的infobox信息,其中已经有结构化的部分信息,通过网页链接,也可以得到部分较准确的关系链接
以科比的infobox为例:
科比

半/非结构化文本:bootstrap模板+keyword的方式抽取

一般来讲,通过我们爬取到的信息,还能够得到关于实体的摘要和描述性文本,以下面刘德华为例,我们在得到了一段描述性文本后,通常能够在其中发现大量的实体信息,将其作为keyword,我们能够通过统计得到大量关系和属性描述模板,以此使用bootstrap框架不断扩充数据集合。
刘德华

2.知识构建

知识图谱的构建,作为离线数据的最重要的部分,其主要工作是从自然语言文本中抽取指定类型的实体、关系、时间等事实信息,形成结构化输出。从知识图谱构建的角度来说,我们可以把其分为三个方向:实体识别,实体链接和关系(属性)挖掘,下面说一下它们各自的主要工作是什么。

实体融合

因为我们的数据往往是多源异构的,同一个string刘德华,在百度百科上都有十个义项(也就是对应到了10个实体),怎么把各个数据源(虾米,优酷,百度,淘宝)的数据整合在一起,并且将其对应到合理的entity_id,就是一个实体融合的过程,那么对于通过知识获取已经结构化的实体信息,我们怎样把他们融合在一起呢

  • 属性相似度计算
    • 关键属性对比(特别是数字,日期类的属性,一般可以唯一确定)
    • 关系链接对比(链接的关系实体名称等是否一致)
  • 摘要的文本相似性 一般来说,摘要的文本jaccard也是一个比较方式
  • 向量距离 如后文会说的RL,如果向量空间距离接近,也可能是同一个实体
实体链接

一般来说,我们处理的都是文本信息,当时实体链接需要坐到id到id的映射,怎样当前的文本指代中知道一个实体的关系是另个实体的id呢

  • 网页linking关系
    使用实体指代作为查询条件模拟搜索请求,可以得到该实体相关信息,然后采用双向校验的方式完成linking
  • PRA
    利用现有的数据,用下面会说的PRA方式,找到执行度高的entity_id作为候选,然后进行关系的分类
属性/关系抽取
  • 目前一般采用的是bootstrap的方式,首先用现有实体在文本中生成大量的伪标注,然后在当前标注区域附近提取大量文本特征,最终把关系挖掘变成一个二分类或者多分类问题。
  • 还有一些方式是通过伪标注数据生成类似ner的标注样本,通过bi_lstm+crf的方式,对属性值标注为1,非属性值标注为0,扩大集合
  • *

3.知识存储和查询

存储方式:spo三元组,rdf,owl
  • spo
    是最简单也是最灵活的一种存储方式,其把图谱的基本结构看做的三元组,所有的linking都通过这种kkv的形式完成。
  • rdf
    简单一点说,就是把spo表示成了一种资源描述符的方式,并且能方便灵活的通过网页存储,目前的图存储和查询,大部分都是采用了这种方式。
<?xml version="1.0"?>     
        <RDF>  
        <Description about="http://www.yahoo.com/">  
        <资源作者>Yahoo!公司</资源作者>  
        <资源名称>Yahoo!首页</资源名称>  
        </Description>  
        </RDF>  
  • owl
    可以看做r
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
知识图谱数据集标注是构建和完善知识图谱的重要步骤,需要关注以下注意事项: 1. 数据质量保证:标注人员需要具备一定的专业知识和经验,以准确理解和标注数据。同时,应对标注结果进行严格的质量控制和评估,确保标注结果的准确性和一致性。 2. 标注规范统一:制定标注规范是必要的,要对实体和关系进行明确定义,并提供具体的标注示范和说明,以保证标注一致性和可比性。 3. 审核和纠错机制:设立审核和纠错机制,通过多人标注和审查,发现和纠正标注错误,提高数据集的质量。 4. 标注工具选择:选择合适的标注工具,确保标注人员可以方便地进行标注、查看和修改标注结果。常见的标注工具包括标签编辑器、图形界面工具等。 5. 多样化的数据源:使用多种数据源进行标注,可以降低标注的主观性和偏差性,并提高数据集的覆盖范围和丰富程度。 6. 数据隐私和安全保护:在标注过程中,需要注意保护用户隐私和敏感信息,确保符合相关的法律法规和隐私政策。 7. 更新和维护:知识图谱数据集是一个动态的、不断变化的过程,需要定期更新和维护,对新增的实体和关系进行标注,同时及时删除过时的实体和关系。 总之,知识图谱数据集标注需要严格遵循标注规范,保证数据质量,合理选择标注工具,确保数据隐私和安全,并定期更新和维护数据集。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值