关于知识图谱的思考

采用如何的构建方式

自顶向下的构建方式,是指先确定知识图谱的数据模型,再根据模型去填充具体数据,最终形成知识图谱。数据模型的设计,是知识图谱的顶层设计,根据知识图谱的特点确定数据模型,就相当于确定了知识图谱收集数据的范围,以及数据的组织方式。这种构建方式,一般适用于行业知识图谱的构建,对于一个行业来说,数据内容,数据组织方式相对来说比较容易确定。比如对于法律领域的知识图谱,可能会以法律分类,法律条文,法律案例等等的方式组织。再比如建立一个三国时期人物的知识图谱,可能会以某个历史时期,魏蜀吴三个国家将人物进行分类,统计人物的师承,上下属,朋友,敌对等等关系,依据这些关系设计数据模型,然后再收集具体人物数据,形成人物的知识图谱。总起来说,自顶向下的构建方式,适用于那些知识内容比较明确,关系比较清晰的领域构建知识图谱。

如何进行数据清洗
  1. 数据的完整性----例如人的属性中缺少性别、籍贯、年龄等
  2. 数据的唯一性----例如不同来源的数据出现重复的情况
  3. 数据的权威性----例如同一个指标出现多个来源的数据,且数值不一样
  4. 数据的合法性----例如获取的数据与常识不符,年龄大于150岁
  5. 数据的一致性----例如不同来源的不同指标,实际内涵是一样的,或是同一指标内涵不一致
如何反爬虫

headers中有很多字段,这些字段都有可能会被对方服务器拿过来进行判断是否为爬虫
2.1 通过headers中的User-Agent字段来反爬
反爬原理:爬虫默认情况下没有User-Agent
解决方法:请求之前添加User-Agent即可;更好的方式是使用User-Agent池来解决(收集一堆User-Agent的方式,或者是随机生成User-Agent)
2.2 通过referer字段或者是其他字段来反爬
反爬原理:爬虫默认情况下不会带上referer字段
解决方法:添加referer字段
2.3 通过cookie来反爬
如果目标网站不需要登录 每次请求带上前一次返回的cookie,比如requests模块的session 如果目标网站需要登录准备多个账号,通过一个程序获取账号对应的cookie,组成cookie池,其他程序使用这些cookie

说一下Django

Django是python的一个Web框架,通过一个views返回给前端数据,使用node和edge的字典,通过html模板渲染,呈现出一个可视化的界面。

如何进行数据存储

在数据清洗后 获得了四个实体类表和三个关系表csv文件,通过一个三元组进行进一步导入Neo4j数据库中。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值