导语:本文通过一些具体的例子解释说明构建知识图谱涉及到的概念和技术。
互联网的出现为大量内容创建者打开了创造内容产出信息的大门。因此,现在网络上存在大量高质量的用户生成内容。为了帮助计算机对这些文档内容有更好的理解,我们需要一种有效的方式来组织和表示这些数据。针对这个问题,人们认为可以把数据中隐藏的知识用图结构的形式进行表示,于是基于语义网概念提出了知识图谱来解决这个问题。
简而言之,知识图谱以图结构的组织形式,通过语义关联描述客观世界中概念、实体及其关系。
如何构建一个用知识图谱表示的知识库呢?下面通过一些简单的例子,描述从网页中的非结构化纯文本中收集信息进而构建知识图谱的基本流程。
![图1 640?wx_fmt=png](https://i-blog.csdnimg.cn/blog_migrate/d55a1d4d4dc290be0a5c4d54133c5b73.png)
1.知识抽取
在构建的第一阶段,我们从海量纯文本中识别文本中的实体以及实体间的关系,过滤出对我们有用的事实知识。识别过程涉及到很多自然语言处理技术的应用,例如分词、命名实体识别、词形还原等等。在这一步中,例如对于句子
世界四大博物馆之一卢浮宫原是法国的王宫,位于巴黎市中心
通过信息提取就被简化为类似以下的简单陈述句的形式:
“卢浮宫 位于 巴黎”
2.知识融合
三元组
在构建的第二阶段,大