关于知识图谱的思考

最新推荐文章于 2023-11-25 22:14:50 发布

zzZsleep7

最新推荐文章于 2023-11-25 22:14:50 发布

阅读量359

点赞数

分类专栏：项目文章标签： python

本文链接：https://blog.csdn.net/zzZsleep7/article/details/107854649

版权

项目专栏收录该内容

2 篇文章 0 订阅

订阅专栏

采用如何的构建方式

自顶向下的构建方式，是指先确定知识图谱的数据模型，再根据模型去填充具体数据，最终形成知识图谱。数据模型的设计，是知识图谱的顶层设计，根据知识图谱的特点确定数据模型，就相当于确定了知识图谱收集数据的范围，以及数据的组织方式。这种构建方式，一般适用于行业知识图谱的构建，对于一个行业来说，数据内容，数据组织方式相对来说比较容易确定。比如对于法律领域的知识图谱，可能会以法律分类，法律条文，法律案例等等的方式组织。再比如建立一个三国时期人物的知识图谱，可能会以某个历史时期，魏蜀吴三个国家将人物进行分类，统计人物的师承，上下属，朋友，敌对等等关系，依据这些关系设计数据模型，然后再收集具体人物数据，形成人物的知识图谱。总起来说，自顶向下的构建方式，适用于那些知识内容比较明确，关系比较清晰的领域构建知识图谱。

如何进行数据清洗

数据的完整性----例如人的属性中缺少性别、籍贯、年龄等
数据的唯一性----例如不同来源的数据出现重复的情况
数据的权威性----例如同一个指标出现多个来源的数据，且数值不一样
数据的合法性----例如获取的数据与常识不符，年龄大于150岁
数据的一致性----例如不同来源的不同指标，实际内涵是一样的，或是同一指标内涵不一致

如何反爬虫

headers中有很多字段，这些字段都有可能会被对方服务器拿过来进行判断是否为爬虫
2.1 通过headers中的User-Agent字段来反爬
反爬原理：爬虫默认情况下没有User-Agent
解决方法：请求之前添加User-Agent即可；更好的方式是使用User-Agent池来解决（收集一堆User-Agent的方式，或者是随机生成User-Agent）
2.2 通过referer字段或者是其他字段来反爬
反爬原理：爬虫默认情况下不会带上referer字段
解决方法：添加referer字段
2.3 通过cookie来反爬
如果目标网站不需要登录每次请求带上前一次返回的cookie，比如requests模块的session 如果目标网站需要登录准备多个账号，通过一个程序获取账号对应的cookie，组成cookie池，其他程序使用这些cookie

说一下Django

Django是python的一个Web框架，通过一个views返回给前端数据，使用node和edge的字典，通过html模板渲染，呈现出一个可视化的界面。

如何进行数据存储

在数据清洗后获得了四个实体类表和三个关系表csv文件，通过一个三元组进行进一步导入Neo4j数据库中。

zzZsleep7

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
关于知识图谱的思考

采用如何的构建方式自顶向下的构建方式，是指先确定知识图谱的数据模型，再根据模型去填充具体数据，最终形成知识图谱。数据模型的设计，是知识图谱的顶层设计，根据知识图谱的特点确定数据模型，就相当于确定了知识图谱收集数据的范围，以及数据的组织方式。这种构建方式，一般适用于行业知识图谱的构建，对于一个行业来说，数据内容，数据组织方式相对来说比较容易确定。比如对于法律领域的知识图谱，可能会以法律分类，法律条文，法律案例等等的方式组织。再比如建立一个三国时期人物的知识图谱，可能会以某个历史时期，魏蜀吴三个国家将人物进行
复制链接

扫一扫

专栏目录