知识图谱的整体架构:
构建知识图谱是一个迭代更新的过程,,每一轮迭代包含以下三个阶段:
1. 信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;
2. 知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
3. 知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。
信息抽取
信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。信息抽取包括:实体抽取、关系抽取和属性抽取。
- 实体抽取,也称为命名实体识别(named entity recognition,NER),是指从文本数据集中自动识别出命名实体。
研究历史:从面向单一领域进行实体抽取,逐步跨步到面向开放域的实体抽取