知识图谱构建过程

最新推荐文章于 2024-05-05 10:34:52 发布

芝士AI吃鱼

最新推荐文章于 2024-05-05 10:34:52 发布

阅读量1k

点赞数 1

分类专栏：学习知识图谱文章标签：知识图谱

本文链接：https://blog.csdn.net/wwlsm_zql/article/details/104043182

版权

学习同时被 2 个专栏收录

19 篇文章 1 订阅

订阅专栏

知识图谱

2 篇文章 0 订阅

订阅专栏

知识图谱构建技术体系

知识获取：从不同来源、不同结构的数据中进行知识的提取，形成结构化的知识，当前知识的获取主要针对文本数据进行
1. 实体抽取
  1. 众包：百度百科、维基百科，存储机器可读的、具有一定结构的数据
  2. 爬虫：通过定义网页中的实体、属性、关系的 pattern，实现对网页数据的获取，例如 Google、Baidu 的搜索引擎
  3. 机器学习：将数据变成考研理解的知识，例如通过文本分类、主题模型等，可以获取文本的特征，这些特征可以理解为知识
  4. 专家：垂直领域的专家经验
  5. NER：命名实体识别
2. 关系抽取
  1. 将文本的关系映射到实体关系三元组上
  2. 分开研究实体和关系抽取，容易造成错误的累计，可以考虑同时研究
3. 事件抽取
  1. 事件是发生在某个特定时间、地点，由角色参与的行为序列
  2. 现有的知识库描述的是实体之间的静态关系，事件描述粒度更大的、动态的、结构化的知识
4. 属性抽取
  1. 属性主要针对实体而言，实现对实体的完整性描述
  2. 可以将属性抽取任务转变为关系抽取任务：实体——属性之间的名词性关系
5. 挑战
  1. 缺乏大规模标注数据：主要采用监督的方法
  2. 开放域上知识抽取的局限性：数据规模的扩展；数据主题的鲁棒性
  3. 跨语言抽取
  4. 跨媒体抽取
    1. 视觉实体和关系的抽取
    2. 视觉事件的自然语言描述
    3. 跨媒体信息融合
知识表示：将现实世界的知识转变为计算机可识别和处理的内容，是一种描述知识的数据结构，用于对知识的一种描述和约定
1. 基于符号的知识表示
  1. 一阶谓词逻辑表示法
  2. 产生式规则表示法
  3. 框架表示法
  4. 语义网络表示法
2. 基于表示学习的知识表示方法
3. 知识表示的目：语义计算
4. 地位：作为知识抽取、融合、建模、计算、应用的基础，侧重于表达实体、概念之间的语义关联
5. 趋势
  1. 符号和表示学习的融合统一：符号表示考虑了人类的理解方式，具有易表达、严密、通用等优点，但计算效率低，无法捕捉隐语义知识；表示学习计算效率高可靠性低，推理效果不佳
  2. 面向事理逻辑的知识表示：事件之间的演化规律和模式
    1. 现有的知识图谱，缺乏对事件之间演化规律的描述和挖掘
    2. 2018年9月哈工大对外公布大规模财经新闻文本的金融事理图谱
  3. 融合时空维度的知识表示
    1. 知识具有时间和空间属性
  4. 融合多模态的知识表示
知识存储
1. 概述：针对知识图谱的知识表示形式，设计底层存储方式，完成各类知识的存储，以支持对大规模图数据的有效管理和计算
2. 对象：属性知识、关联知识、事件知识、时许知识和资源类知识等
3. 影响：基于知识图谱的查询、计算和更新效率
4. 方式：基于表结构的存储和基于图结构的存储
知识融合
1. 数据层：面向知识图谱实例层的知识融合
  1. 实体链接：多类型多模态上下文及知识的统一表示，建模不同信息、证据之间的相互交互
    1. 基于实体知识的链接
    2. 基于篇章主题的链接
    3. 融合上两种方法链接
  2. 实体消解：去除冗余、重复实体的过程
2. 概念层：对多个知识库、信息源在概念层进行模式对齐
  1. 本体对齐：亦称本体匹配，指确定本体概念之间映射关系的过程
  2. 跨语言融合
3. 趋势
  1. 短文本资源缺乏下实体链接方法：口语化、上下文不丰富
  2. 融合先验知识的端到端深度学习实体链接方法：缺乏标注数据、误差的累积
知识建模：即采用什么方式来表达知识，构建一个本体模型对知识进行描述。
1. 作用
  1. 需要构建本体的概念，属性以及概念之间的关系
  2. 高质量的数据模型能够避免许多不必要的、重复的知识获取工作，有效提高图谱的构建效率，降低领域数据融合成本
2. 构建途径
  1. 自顶向下：构建图谱时，先定义数据模式即本体，一般通过领域专家人工编制。从最顶层的概念开始定义，然后逐步细化，形成结构良好的分类层次结构
  2. 自底向上：对现有实体进行归纳组织，形成底层概念，再逐步往上抽象形成上层概念。多用于开放领域知识图谱的本体构建
3. 方法
  1. 手工建模
    1. 明确领域本体及任务
    2. 模型复用
    3. 列出本体设计领域中的元素
    4. 明确分类体系
    5. 定义属性及关系
    6. 定义约束条件
  2. 半自动建模方法：先通过自动方式获取知识图谱，然后进行大量的人工干预过程
4. 评价
  1. 明确性和客观性：对定义的术语给出明确、客观的语义定义
  2. 完全性：定义是完整的，完全能够表达所描述领域内术语的含义
  3. 一致性：正确一致的展示数据、对象和信息，由术语得出的推论与术语本身含义不会产生矛盾
  4. 最大单调可扩展性：通过添加通用或专用的术语，不需要修改已有的内容，便于知识图谱扩展
  5. 最小承诺：尽可能少的约束，指本体约定应该最少
  6. 有效地支撑业务的分析和决策需求
5. 趋势
  1. 大规模数据建模
  2. 全自动建模方式
  3. 实时更新
知识计算：图谱质量提升、潜在关系挖掘与补全、知识统计与知识推理
1. 定义：基于已构建的知识图谱进行能力输出的过程
2. 知识统计与图挖掘：基于图特征算法进行社区计算、相似子图计算、链接预测、不一致检测等，基于图论的相关算法
  1. 知识查询、指标统计、图挖掘
  2. 图查询检索：查询目标节点的n度关联方，子图结构等
  3. 图特征统计：对图中的一个节点或多个节点的特征或属性进行的统计计算，例如出度、入度、介度和中心度
  4. 关联分析：分析图中两个及以上节点之间的关联关系、紧密程度，进而实现社群发现和分割
  5. 节点分类：根据某些图特征或关联属性，对图中的节点进行分类，例如信用违约公司典型的风险路径
  6. 异常检测：在全网中发现异常节点、异常子图等，例如出入度数值离群的节点、闭环的投资关系
  7. 预测推理：基于规则和机器学习的方法，从已有的图谱中，推理学习出新的关系和信息，适用于弱关系推理、链接预测、概率推理
  8. 时序分析：对单一的关系、事件做时序分析，或者网络拓扑结构的变化做时序分析，例如变更行为、风险传播
3. 知识推理：基于图谱的逻辑推理算法；从给定知识图谱中推导出新的实体、关系和属性；按照某种策略，从已有的知识推理出新的知识的过程
  1. 基于符号的推理
  2. 基于统计的推理
知识运维：初版知识图谱构建完成后，基于用户的反馈和新增知识，对知识图谱的一个演进和完善过程
1. 从数据源方面，基于增量数据的知识图谱的构建过程监控
2. 从业务层面，发现的知识错误和新的业务需求

芝士AI吃鱼

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
知识图谱构建过程

知识图谱构建技术体系知识获取：从不同来源、不同结构的数据中进行知识的提取，形成结构化的知识，当前知识的获取主要针对文本数据进行实体抽取众包：百度百科、维基百科，存储机器可读的、具有一定结构的数据爬虫：通过定义网页中的实体、属性、关系的 pattern，实现对网页数据的获取，例如 Google、Baidu 的搜索引擎机器学习：将数据变成考研理解的知识，例如通过文本分类、主题模型等...
复制链接

扫一扫