图分析在大数据时代的应用

在数据规模越来越大、数据结构越来越复杂的大数据时代,传统的关系型数据暴露出了建模缺陷、水平伸缩等问题,于是具有更强大表达能力的图数据受到业界极大的重视。如果把关系数据模型比做火车的话,那么现在的图数据建模可比做高铁。 图的使用场景.jpeg

什么是图呢?

图(Graph),将信息中的实体,以及实体之间的关系,分别抽象表达成为顶点以及顶点间的边这样的结构数据。

像Facebook和Twitter这样的社交网络,其数据天生就适合于图表示法。诸多典型的大数据应用易于通过图来进行建模,如交通网络、CDR通话图、用户与产品之间的二分图、论文中作者之间的合作关系网、文章之间的索引关系、金融交易网络等等。于是,基于图数据的分析技术—关系分析(图计算)应运而生。图计算系统就是针对图结构数据处理的系统,并在这样的数据上进行针对性优化的高效计算。我们可以用图这个通用的、富有表现力的结构来建模各种场景,从宇宙火箭的建造到道路系统,从食物的供应链及原产地追踪到人们的病历。

在许多实际场合中我们都能找到图分析的应用。例如: 在金融风控中,将多种变量(如账号、交易、资金)之间的关系通过图联系在一起,共同分析其对金融安全的影响,典型的金融异构系统,如洗钱、庞氏骗局等都能反映出特定的图结构。
比如在大图上做环路检测可以有效识别循环转账,帮助预防信用卡诈骗;
分析可疑人物的近邻好友和基于属性图的社团发现可以进一步挖掘出骗子团伙或者僵尸账号。

`知识图谱通过图来建立知识概念之间的联系,并在此基础上设计推理算法。` 知识图谱常用来进行知识推理,从语义层面理解用户意图,改进搜索质量。LinkedIn的知识图谱对会员显式输入的技能,比如“分布式系统”、“Hadoop”等,自动推理出其他技能,比如“产品管理”、“NoSQL”等。特别是AI和机器学习中需要处理很多由实体和关系构成的信息。例如,在推荐系统中,用户和电影就是实体,他们之间的喜好构成了实体间的关系;搜索查询和商品也是实体,他们之间的点击率构成了实体间的关系。

业界洞察

整个图计算领域可进一步细分为查询分析、计算引擎、存储管理、可视化等子方向。

目前并没有一种涵盖所有子方向的图引擎。例如图数据库Neo4j、Titan等擅长于图数据的实时查询,但并不能高效地对图数据进行离线分析;分析引擎Turi、GraphX侧重图数据的离线分析和挖掘,却不能对属性图进行管理,且不支持实时查询。 同时,图计算领域也面临大数据环境下带来的巨大挑战。就当前的社交网络而言,对全网做查询分析就意味着对数十亿节点(人物)数百亿边(关系)的大图进行操作。而规模更大的互联网、物联网可达到百亿节点千亿边甚至以上。在如此巨大数据量的情况下,实现高效高并发的查询是当前一大难点。 一方面,鉴于图数据结构的稀疏性,并不能通过GPU等硬件手段上取得很好的加速。 另一方面,图的局部性也有别于传统机器学习系统的数据组织形式。 此外,随着数据复杂性的增加,节点和边往往带有属性信息。这些信息既可以是固有属性(如年龄、性别等),也可以是计算得到的结果(如介数中心度、pagerank值等),这些计算结果往往又是下一次查询的输入。属性管理与交互式计算查询,是图领域的另一大挑战。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值