用知识图谱打开梁山好汉一百单八将

说起《水浒传》大家一定不会陌生,《水浒传》是一部以描写古代农民起义为题材的长篇小说,全书描写北宋末年以宋江为首的108位好汉在梁山聚义,之后接受招安、四处征战的故事。它的一大看点便是其人物的描写,用金人瑞曾评的话说:“水浒所叙一百八人,人有其性情,人有其气质,人有其形状,人有其声口。”

那么这么多的出场人物,初读者一时间搞不清如此错中复杂的人物关系,就算读过的朋友时间久了可能也会混淆。为了快速弄清楚这些人物关系,我们打开了浏览器,搜索“水浒人物”,得到了一张人物简介表。

图片来源:水浒传维基百科

以上表格是我们常用的数据处理的方式。可以看到,表格虽然比小说原文精简了很多,但难以表示出人物之前复杂的关系,且光是25位人物信息表格,想查找相关的信息已经比较耗时了。

那有没有什么办法可以清晰的展示出108位梁山好汉之间的关系,让朋友们既能宏观的把握整部小说总体的人物关系架构,又能细致的了解人物之间的关联关系呢?

当然有,知识图谱可解君愁!

1.什么是知识图谱

最早的图论起源于历史著名的七桥问题:河中心有两个小岛,小岛与河的两岸有七条桥连接,在所有桥都只能走一遍的前提下,如何才能把这个地方所有的桥都走遍?

1736年,数学家欧拉递交了《哥尼斯堡的七座桥》论文,解答了当时著名的七桥问题,把这个实际问题转化成一个几何问题,把陆地考虑成一个点,桥以线表示,很快地就判断出一次不重复走遍7座桥是不可能的。不仅解决了这个长期没有定论的问题,同时也开创了数学的一个新分支——图论,也反应出了数学处理实际问题的独特之处——就是把一个实际问题抽象成合适的抽象图形来解决。

图的定义:图是由一组顶点和一组能够将两个顶点相连的边组成的。 

图这种数据结构表达力极强且非常简洁,图可以认为是表达事物关系的最简洁的表现形式。

知识图谱是以结构化的形式将节点通过关系相互连接起来,构成一张知识网络图。它可以把真实世界的各个场景抽象成图形,将信息表达成一种关系网络图,这种形式更接近人类认知世界的形式,为数据处理提供了一种更好的组织和管理能力。

2.图解水浒

知道了什么是知识图谱,那我们如何从水浒120回,96万字的原著中提炼出人物及关系的相关信息来构建知识图谱呢?

从原始的数据到形成知识图谱,涉及构建、存储与管理、应用三个阶段,具体包括数据模型构建、知识抽取、知识融合(实体对齐)、质量评估、知识存储与管理等步骤。其中应用到了各种算法模型以及机器学习的方法。看到这里,是不是有的小伙伴就觉得:这太难了,我根本做不到呀~~~

不要急,我们可以用知识图谱一体化平台来帮助我们构建水浒人物知识图谱。

KGS是北京大学王选计算机研究所数据管理实验室经过了十余年的匠心沉淀,从2011年首次在学术界提出以子图匹配的方法来构建图数据库系统以来,围绕知识图谱全生命周期不断研发新组件,完善相关能力,在北京大学重庆大数据研究院培育下经过一年多的潜心研发,最终打磨出的知识图谱一体化平台系统软件。主要由知识图谱自动化构建、知识图谱存储与管理、知识图谱可视化应用、系统管理四个核心功能模块组成,提供知识图谱从构建到存储管理到上层应用的一站式服务。

知识图谱一体化平台系统架构图

下面以知识图谱一体化解决平台系统(简称KGS)的知识图谱自动化构建平台为例,为大家演示如何构建水浒人物的知识图谱。

KGS的知识图谱自动化构建平台(即原gBuilder工具)是通过结合NLP技术、机器学习、人工智能、知识图谱、图数据库等众多技术,打造的一个针对结构化数据和非结构化数据的知识图谱自动化构建平台,实现数据向知识的转化。

作为文本的水浒传如何快速的转化为知识图谱呢?

这是在构建水浒人物关系图谱的一个重难点问题,我们通过知识图谱一体化平台KGS的知识图谱自动化构建子模块的非结构化数据抽取流程的开放式流水线设计功能来实现,该模块内置了很多命名实体识别、关系抽取的模型和数据处理算子。用户可以根据需求选择相关模型、算子来设计抽取流程,无需任何代码的编写即可实现非结构化数据抽取流程的构建。

抽取流程设计好以后,我们就可以上传水浒传的文本数据进行知识抽取了。(为了方便大家更清楚的看出人物关系,我们选择人物简介文本来进行知识抽取)

通过KGS知识图谱自动化构建平台,我们就可以将普通的文本,抽取成一条一条的人物关系三元组即RDF数据,然后自动导入到KGS存储管理系统进行数据存储和管理,就可以对构建好的知识图谱数据进行增删改查等操作,其中可视化查询分为普通查询和高级查询。

普通查询主要是通过编写SPARQL语句对图谱进行查询,高级查询主要是结合了多种内置的图分析算法进行查询。

- 普通查询:

1. 首先我们对整个知识图谱的数据进行查询。

查询语句为:

SELECT  *
WHERE 
{
    ?a ?b ?c .
}

查询如下图所示:

头像来源:水浒传电视剧

派系、人物、关系一目了然。可以清楚的看到,妥妥的占据了C位的宋江毫无悬念的成为了本书第一主角,与其他人物的关系最多。李逵、武松、林冲、鲁智深所关联的人物也比较多,当之无愧的成为了书中的灵魂人物。

2. 除了整体人物关系,我们还可以对具体的人物关系进行分析。例如我们查询霹雳火秦明的人物关系以及涉及派系等关系。

查询的语句:

SELECT  ?a ?b
WHERE 
{
    <霹雳火秦明>?a ?b .
}

查询结果图如下:

- 高级查询:

知识图谱一体化平台存储与管理子模块还内置了众多图分析算法,例如最短路径,环路查询、K跳可达性查询,我们在该平台对这些算法进行了进一步封装,用户可直接使用去实现高级的路径查询。

1. 最短路径

比如,我们拿起水浒,随手一翻,正好看见玉麒麟卢俊义身陷囹圄的章节,你一想:卢俊义是谁?跟我们第一大男主宋江是什么关系?这个时候只需要在知识图谱中查找两个人之间最短的路径,就可以知道答案。

查询结果如下:

2. 环路查询

还可以进行环路查询在人物关系网中查看某个人周围是否存在一个关系闭环。比如我们选择环路查询,输入两个节点<呼保义宋江>和<霹雳火秦明>,便可以查询这两个人物之间是否存在一个关系闭环。

查询结果如下:


3. 其他高级查询

另外知识图谱还可以进行K跳可达性查询、Personalized PageRank、宽度优先遍历计数、三角形计数、重要性分析查询等。

比如,水浒七十一回提到“忠义堂石碣受天文,梁山泊英雄排座次”的事情。按照书中的说法,这个座次是神授的。但是按照唯物主义的立场,假设是人来排座次,看着108位好汉的简历,派系,兄弟、叔侄、师徒等等错综复杂的关系,也不知道该从何下手吧。

图片来源:水浒传电视剧截图

其实,人的本质是由社会关系的总和决定的。就排名来说,座次的排名与梁山好汉在网络中的位置也有关。从直观上判断,和其他人物拥有的关联关系最多、关系网络最广,或是处于独特网络位置的人,其排名也应该比较高。我们可以借助知识图谱中的一系列功能,如:紧密中心度、Personalized PageRank等查询函数综合进行人物重要性分析,最后根据重要性进行排名即可。

以下是根据中心度算法的得出的人物排名结果:(截图仅展示了部分结果)

[
   { 
      "src": "<呼保义宋江>",
      "result": 0.225627 
},
   {
      "src": "<玉麒麟卢俊义>",
      "result": 0.157895
},  
{
      "src": "<智多星吴用>",
      "result": 0.108434
},
......
]

除了内置的图分析算法外还可以自定义实现自己想用的图分析算法,并直接在平台使用。自定义算法详情参考:#gStore-weekly | gStore最新版本1.0之自定义图分析算子

知识图谱的应用远远不止于此。与上文中的人物关系知识图谱类似,目前Facebook已经拥有了全球20亿+用户的社交图谱,来记录用户关系支撑社交推荐、用户画像等应用。另外,公安进行人员侦查;监管部门进行自然人、法人管理;金融将机构进行多层股权查询、资本系分析等,都可以利用到知识图谱。

在创新的道路上永无止境,我们仍在不断丰富知识图谱一体化平台的功能和提升性能。目前在多个项目中落地,已运用在金融、医疗、政务大数据、人工智能、交通、公安、纪检监察、军工等领域,很好的支撑和承载业务。

我们已经将《水浒传》、《人民的名义》、《权利的游戏》等相关数据集分享至KGS云平台(http://cloud.gstore.cn/

本文数据nt文件下载链接:http://file.gstore.cn/f/bd6676d4b3ea452f8fbc/?dl=1

欢迎大家来建立自己的人物关系知识图谱。

来源:施耐庵《水浒传》、电视剧《水浒传》

文字:代雪佩

UI:唐莹婷、荣悦斯

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的课程设计、期末大作业和毕设项目,作为参考资料学习借鉴。 3、本资源作为“参考资料”如果需要实现其他功能,需要能看懂代码,并且热爱钻研,自行调试。 基于Neo4j的《水浒传》人物关系可视化及问答系统python源码+说明文档+PPT+示例片.zip #### 简介 基于Neo4j的《水浒传》人物关系可视化及问答系统,该项目可以作为毕业设计,主要用涉及领域包括知识图谱、自然语言处理等知识。运用到的技术架构包括中文自然语言处理技术LTP模型、Python Flask框架、Neo4j数据库。raw_data是人工合成的数据,spider中的数据是爬取的人物片数据和人物基本信息数据。 #### 一.项目背景 近年来网络文学蓬勃发展,文学作品的数量和题材层出不穷。一部文学作品的字数通常是超过百万的,这就使得用户仅仅通过自己阅读是很难准确地捕捉到作品中具体的人物关系。如果使用传统的搜索引擎对文学作品中的人物关系进行查询,得到的结果往往都是相对应的大量文字片段的网页链接,无法得到简洁准确的答案。由此,能够弥补上述缺陷的问答系统逐渐受到广泛关注,它不仅允许用户以自然语言的方式进行提问,还能够实现针对用户提问返回相应简洁准确答案句的功能,在一定程度上提高了用户的查询效率。此外,关于中文问答系统的研究还不够成熟,中文语法及语义的复杂性给问答系统研究带来了不小挑战,因此,针对中文的语句相似度研究、文本检索、知识推理等问答系统的应用前景广阔,且有很大发展空间。 #### 二.项目介绍 本项目是对中文问答系统的探索,针对文学作品人物关系复杂,无法进行快速准确查询的问题,本项目提出基于水浒传的人物关系可视化及问答系统,并进行了实例验证,采用分词、句法分析等自然语言处理技术,研究了文学作品水浒传中人物关系,实现了根据用户输入的人物名称快速返回其人物关系的功能,项目功能包括三个主要部分:人物关系检索、人物关系全貌展示和人物关系问答。对于用户提交的问题,首先利用哈工大的语言技术处理平台LTP进行分词,提取关键词;其次,对于已经预处理的数据建立数据库,然后用分词提取出来的关键字进行Neo4j数据库的查询,匹配相关信息,利用Python Flask建立前端展示页面,建立知识图谱展示。目前,自然语言处理应用于各个领域,如教育、医疗、司法、金融等等。本项目立足经典著作《水浒传》,爬取水浒传人物数据,构建起一个包含7类实体的水浒传人物关系知识图谱,以及关于水浒传人物关系的问答系统。本项目主要包含以下内容: - 基于neo4j的水浒传人物关系检索查询。 - 基于neo4j的水浒传人物关系全貌查询。 - 基于neo4j的水浒传人物关系问答系统。 #### 三.项目结构 本项目主要分为以下几个模块: 1. spider模块爬取人物资料,包括人物片images,人物基本信息(别名、性别、籍贯等)json,生成data.json文件。 2. raw_data文件夹是存放数据处理后的三元组文件。 3. neo_db模块创建知识图谱,建立数据库以及进行知识图谱的查询。 4. KGQA模块是问答系统模块,主要进行分词、词性标注、命名实体识别。 5. templates模块是HTML页面模块,包括欢迎界面、搜索人物关系页面、人物关系全貌页面人物关系问答页面。 6. static模块存放css和js,是页面样式和效果文件。 7. app.py是整个系统的主入口。 #### 四.总体功能设计 #### 五.项目流程 #### 六.成果展示 首页 人物关系检索 人物关系全貌 人物关系问答 #### 七.部署步骤 * 0.安装所需的库 执行pip install -r requirement.txt<br> * 1.先下载好neo4j数据库,并配好环境。修改neo_db目录下的配置文件config.py,设置数据库的账号和密码。在cmd中运行neo4j.bat console命令。<br> * 2.切换到neo_db目录下,执行python create_graph.py 建立知识图谱<br> * 3.下载好ltp_3.4.0 模型,[LTP下载](https://pan.baidu.com/s/1rRvIThO6ej0pyvFbvFSWpQ?pwd=cpvn),提取码:cpvn。注意放到根目录下,如:D:\ltp_data_v3.4.0。[ltp简介](http://ltp.ai/)<br> * 4.在KGQA目录下,修改ltp.py里的ltp模型文件的存放目录<br> * 5.运行python app.py,浏览器打开localhost:50
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值