数据分析及图算法 | 导论

何为图

当今紧迫的数据挑战在于厘清关系,而不仅仅是对离散数据制表。

图的起源

“哥尼斯堡七桥”是图问题的起源,能否参观哥尼斯堡市里由 7 座桥连接的 4 个区域,而且每座桥只允许经过一次,实际上这是不可能做到的。

图片 七桥问题图片

构成图的对象有:

  • 构成图的对象:节点、顶点;
  • 节点之间的关联:关系、联系、边;

**图片 关系图和图表**

图分析和图算法

图分析

图分析是指基于图的方法来分析关联数据的过程,包括查询图数据、使用基本的统计方法、直观地研究图,或者将图整合到机器学习任务中,等等。
【PS:图算法属于图分析工具】

图算法

图处理是指执行图工作载荷和任务的方法:

  • 局部图处理:大多数图查询针对图的特定部分(例如起始节
    点),而且要做的工作通常集中在起始节点周边的子图中。这类局部图处理通常用于实时事务处理和基于模式的查询。
  • 全局图处理:算法的输入通常是整张图,其输出则既可
    以是一张增强的图,也可以是某种总值,比如得分。这种方法通过网络的连接关系揭示其整体性质。

图的事务处理

联机事务处理(online transaction processing,OLTP):

  • 通常涉及一些短期活动,比如预订机票、记入账户、预售商品等。OLTP 提供海量低延迟查询处理和高数据完整性。
  • 每个事务可能只涉及少量记录,但是系统要同时处理许多事务。
    联机分析处理(online analytical processing,OLAP):
  • 对历史数据进行更复杂的查询和分析。这些分析可能涉及多个数据源、多种格式和类型。检测趋势、执行假设场景、进
    行预测和发现结构模式等都是典型的 OLAP 用例。处理的事务少,但处理的记录更多且运行时间更长。

事务型分析(translytics)、混合事务与分析处理(hybrid transactional and analytical processing,HTAP ):
事务处理需要一种支持低延迟查询处理和高数据完整性的混合平台,同时需要在海量数据之上集成复杂分析。

**图1-5 事务处理**

图处理、图数据库、图查询和图算法

择优连接现象:研究网络增长的科学家注意到,连接性会随着时间的推移而增强,但是并不均匀。一个节点的连接关系越多,就越有可能建立新的联系。这导致了不均匀的集中度和中心。
在现实网络中,节点和关系的分布不均匀,在极端情况下表现出幂律分布特征。均匀分布假设大多数节点具有相同数量的关系,这样产生的是一个随机网络。幂律分布最著名的例子是帕累托分布(也称二八定律)。
**图1-8 幂律分布**

图算法的应用

图分析所回答的问题类型:

  • 传播途径:事务如何传播?
  • 流程与影响:功能、代价和控制点是什么?
  • 交互与弹性:事务如何交互?交互方式将如何改变?

所面临的挑战:

  • 调查传染病或级联传输故障的传播路径。
  • 发现网络中最易受攻击或最易损坏的组件。
  • 确定在传送信息或资源时速度最快、代价最小的方式。
  • 预测数据中缺失的联系。
  • 定位复杂系统中的直接影响和间接影响。
  • 发现不可见的层级结构和依赖关系。
  • 预测群组将合并还是分裂。
  • 发现瓶颈及有权拒绝或提供更多资源的个体。
  • 基于行为发现社团以进行个性化推荐。
  • 减少欺诈和异常检测中的假正例。
  • 为机器学习提取更多预测性特征。

参考资料:

  • 《数据分析之图算法:基于Spark和Neo4j》
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值