网络挖掘初探索(1)_基本概念和相关内容

网络挖掘初探索,根据看的资料整理的鸭

还在持续更新中……

总是会听到一些网络挖掘、知识图谱、复杂网络等等概念,想要捋清楚这些究竟是个啥,根据看的的各种资料汇总的一些基本概念。旨为搞清楚他们是啥,以及他们之间的关系。非专业小白,自己个瞎看看就好。

概念

什么是图?

图(图论)是一种常见的数据结构,用于表示对象及其之间的关系。其中,对象又称节点(node)或顶点(vertex),关系用边(edge)来描述。在数学上一般用 G=(V,E,A,X) 来表示,其中 V={v1,v2……,vn} 是节点集合,E=e_ij 表示边的集合,A 是大小为|V|×|V|的邻接矩阵,用于表示节点之间的连接关系,如果 e_ij∈E,则 A_ij=1,X 是大小为|V|×d 的特征矩阵,X 的第 i 行 X_i:表示第 i 个节点的属性特征,其中 d 是属性的维度。图是一个数学学科,现也被广泛应用于计算机科学,如研究数据结构、计算机框架、网络设计等。

什么是知识?

百度:知识是符合文明方向的,人类对物质世界以及精神世界探索的结果总和。通常我们认为的知识,是我们在实践中对于认识客观世界的成果,其中包括诸多,如事实、信息描述、实践技能、归纳总结的客观规律,发现论证的推导。知识也可以看成是构成人类智慧的最根本因素。但是这是全人类知识的概述,不同于个人理解的知识,不同于知识图谱中的知识,也就是本文中所阐述的“知识”是狭义上的知识。因为知识是狭义的,所以我们更需要去界定什么样的“知识”是我们所需要的,通常对于我们来说,我们需要构建知识图谱的知识,是需要根据业务来确定,我们需要它来支撑什么样的业务,根据业务性质来确定需要总结的知识。

什么是图谱?

对于图谱我们可以稍微咬文嚼字,graph 即图,而我们称之为图谱,那么何所谓图?,图是知识的表述形式,图包含两个部分:1、节点(node),节点即知识;2、边(edge),边即关系;即以图的形式来保存知识。那何所谓谱,我们知道家谱,菜谱,食谱,那谱的意思即按照事物的类别、系统制表,也就是说图谱,不但需要能够以图的方式,结构化地表述知识,还需要对知识进行类别分类,归纳总结。

什么是网络挖掘(图挖掘)?

其实与一般意义上的数据挖掘/数据分析殊途同归,都是通过挖掘/分析方法,获取数据中的包含的信息和知识。
不同的是,一般意义的数据挖掘是通过算法模型(比如常用的回归、分类、聚类模型)进行描述/预测,网络挖掘则给出了新的解决方式。
通过将数据/问题抽象为网络模型,来帮助我们更好地进行数据分析/数据挖掘。

什么是复杂网络?

复杂网络(Complex network)即呈现高度复杂性的网络,是复杂系统的抽象。钱学森给出的定义:具有自组织、自相似、吸引子(网络的内聚倾向)、小世界(相互关系的数目可以很小但却能够连接世界的事实)、无标度中部分或全部性质的网络称为复杂网络。

  • 规则网络
  • ER随机网络
  • WS(超) 小世界网络
  • 自相似网络
  • 确定性网络
  • 动态演化网络
  • BA无标度网络
  • JGN社区网络

什么是知识图谱?

知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系。是融合了认知计算、知识表示与推理、信息检索与抽取、自然语言处理、Web技术、机器学习与大数据挖掘等等方向的交叉学科。即,整理总结业务中的知识,并建立这些知识之间的关联关系,最后以图的方式将其保存出来,并对这些知识进行分类,归纳和总结。

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

什么是社交网络?

社交网络(Social network)模型许多概念来自于图论,因为社交网络模型本质上是一个由节点(人)和边(社交关系)组成的图。目前主导社交网络的两个核心脉络就是关系图谱与兴趣图谱。

以上概念混乱的关系?

图(论):数学工具
复杂网络:源于图(基于图论的理论和方法开展),图+算法,侧重于工程。是一种特殊的图(具有高度复杂特征的图)。
社交网络:是用到复杂网络工具进行社会研究,也可以说是复杂网络的分支
知识图谱:现在最常听说的概念,知识图谱既是一种特殊的图,也是一种特殊的复杂网络。但知识图谱也是一种知识表示。复杂网络+知识表示。
两大主题:风险控制和精准营销。
网络挖掘:比较大的概念,类似数据挖掘。

相关流程、技术(知识图谱)

知识表示
知识抽取
从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。

  1. 面向非结构化数据的知识抽取

    • 实体抽取
    • 关系抽取
    • 事件抽取
  2. 面向结构化数据的知识抽取

    • 直接映射
    • R2RML
    • 相关工具
  3. 面向半结构化数据的知识抽取

    • 面向百科类数据的知识抽取
    • 面向WEB网页的知识抽取

知识挖掘
知识内容挖掘:实体链接
知识结构挖掘:规则挖掘

知识融合
概念层的融合
实体层的融合

知识存储
知识图谱是基于图的数据结构,它的存储方式主要有两种形式:RDF存储格式和图数据库(Graph Database)。
常见图数据库:

  • NEO4J(图)
  • 分布式图形数据库 JanusGraph
  • Titan(图)
  • OrientDB(图,文档)
  • Cayley
  • Jena (RDF)
  • RDF4J
  • RDF-3X gStore

知识计算
知识计算主要是指在结构化的知识存储库中发现隐含关系以及知识,包括但不限于如下:
知识表示:
知识推理: 据已有的知识图谱中的事实或者关系推断出新的事实与关系,一般是考察实体、关系和图谱结构三个方面的信息特征。

  • 基于演绎的知识图谱推理
    • 本体推理
    • 基于逻辑编程的推理
    • 基于查询重写
    • 基于产生式规则
  • 基于归纳的知识图谱推理
    • 基于规则学习的推理
    • 基于表示学习的推理
    • 基于图结构的推理
  • 新的方法
    • 时序法
    • 基于强化学习
    • 基于图神经网路
      产生式规则、基于谓词逻辑

图挖掘的相关技术:图遍历、最短路径查询、子图查询、路劲探寻

知识应用

开发工具

GraphX:基于spark
networkx:python

应用

反欺诈
异常分析(Anomaly Detection)
失联客户管理
搜索引擎
智能问答
大数据分析
语言翻译和语言理解及辅助设备互联(Iot领域)
病毒传播
画像

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值