图计算
文章平均质量分 68
张包峰
Distributed Computing
展开
-
GraphX实现N度关系
背景本文给出了一个简单的计算图中每个点的N度关系点集合的算法,也就是N跳关系。之前通过官方文档学习和理解了一下GraphX的计算接口。N度关系实现思路: 1. 准备好边数据集,即”1 3”, “4, 1” 这样的点关系。使用GraphLoader 的接口load成Graph 2. 初始化每个Vertice的属性为空Map 3. 使用aggregateMessages把VerticeID和原创 2015-08-04 12:19:23 · 4767 阅读 · 3 评论 -
GraphX 图数据建模和存储
背景简单分析一下GraphX是怎么为图数据建模和存储的。入口可以看GraphLoader的函数,def edgeListFile( sc: SparkContext, path: String, canonicalOrientation: Boolean = false, numEdgePartitions: Int = -1, edgeS原创 2015-08-05 10:47:52 · 7443 阅读 · 2 评论 -
GraphX 实现K-Core
背景graphx实现k-core比较简单,参考淘宝技术部之前的文章,已经给出了一个代码片段,基本上改改就可以定制自己的需求了。codeimport org.apache.spark._import org.apache.spark.graphx._import org.apache.spark.storage.StorageLevelimport org.apache.spark.graphx原创 2015-08-06 17:02:28 · 4703 阅读 · 1 评论 -
GraphX迭代的瓶颈与分析
背景测试了一个case,用GraphX 1.6跑标准的LPA算法,使用的是内置的LabelPropagation算法包。数据集是Google web graph,(忽略可能这个数据集不是很合适),资源情况是standalone模式,18个worker,每个worker起一个executor,50g内存,32核,数据加载成18个分区。case里执行200轮迭代,代码:import org.apache原创 2016-02-03 16:07:22 · 6600 阅读 · 2 评论 -
Gremlin实现分析
先把梳理逻辑图放着,有空分析 :)戳大 http://img.blog.csdn.net/20160412144546178Gremlin文档 http://tinkerpop.apache.org/docs/3.1.1-incubating/reference原创 2016-04-06 12:50:59 · 5863 阅读 · 0 评论