
Giraph
文章平均质量分 79
上杉绘梨衣-
少年听雨歌楼上,红烛昏罗帐,壮年听雨客舟中,江阔云低,断雁叫西风。
而今听雨僧庐下,鬓已星星也,悲欢离合总无情,一任阶前,点滴到天明。
展开
-
Giraph的一些背景介绍
关于Giraph的一些背景介绍转载 2017-02-20 12:38:01 · 1806 阅读 · 0 评论 -
Graph Attention Network
【新智元导读】Yoshua Bengio 团队日前提出了一种名叫图谱注意力网络(Graph Attention Network,GAT)的新型神经网络架构,探讨将图谱(Graph)作为输入的情况下如何用深度学习完成分类、预测等问题,相关论文已经提交ICLR-18审核。作者邓侃认为,图(Graph)作为一种表达方式,能够表达很多知识,Bengio研究组的这篇论文虽然尚未在业界引发巨大反响,但其结转载 2018-01-19 18:15:21 · 4544 阅读 · 3 评论 -
2017暑期开发封闭计划
封闭开发工作计划目前要做的工作大概分成以下几个部分:1. 目前我们的图系统在效率方面已经做到同类中的最好,但是它只是一个图系统,需要用户熟悉相关知识来自己编写代码实现想要的功能(以点为中心的编程模型),而到这里之后才了解到这里的需求,可能要把它改成图数据库,支持增删改查的功能,比较侧重的是查询,鉴于实验室之前的积累,现在比较明确的就是对于查询方面,在该系统上之前有实现过RDF查询(Sparq原创 2017-07-18 10:12:28 · 367 阅读 · 0 评论 -
图的幂律度分布 power-law degree distributios
讲的一篇图论文中说到,“The natural graphs commonly found in the real-worldhave highly skewed power-law degree distributios……”,开始只是了解个大概,后来经查才知道。power-law degreedistributios原来是一种描述网络图中结点度的分布,中文可叫做“幂律度分布”。维基百科词条原创 2017-12-08 22:55:21 · 9220 阅读 · 3 评论 -
JAVA中使用JDBC插入大量mysql中的数据
最近在拓展Giraph的功能,是为了可以支持Giraph这个系统存储更多的数据后来在老师的建议下内嵌了MySQL,其实一点原创性都没有TAT,为了应付深圳项目的测试先这样吧,但是做的工作还是挺多的其中为了快速的向Mysql中嵌入大量的数据而查资料知道这样的方法如下文使用JDBC连接MySQL数据库进行数据插入的时候,特别是大批量数据连续插入(100000),如何提高效率呢?在J原创 2017-10-17 22:20:35 · 734 阅读 · 0 评论 -
Hadoop中mapred.child.java.opds参数意义
最近发现Hadoop Job集群的load非常高,最后发现是mapred.child.Java.opts设置过大导致的,我们当初设置为-Xmx5120导致TaskTracker上内存资源耗尽,进而开始不断swap磁盘上数据,load升高在执行一个Task的时候,首先会根据JobConf中设定的JVM参数写入一个taskjvm.sh文件中,然后调用Linux命令 bin/bash -原创 2017-08-04 10:44:53 · 4005 阅读 · 0 评论 -
Hadoop中 MapReduce中InputSplit的分析
前言MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。什么是InputSplit InputSplit是指分片,在MapReduce当中作业中,作为map task最小输入单位。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多少个片段,每个片段包括了等信息。在MapTask拿到这些分片后,会知道从哪开始读取数据。Job提交原创 2017-08-03 15:12:27 · 1819 阅读 · 0 评论 -
Jena搭建SPARQL查询RDF数据
1 Jena搭建SPARQL查询RDF数据1.1 Jena概要· SPARQL是W3C的RDF数据工作组设计的一种查询语言和协议,用于RDF数据的查询。经过类似于JDK安装时候的配置,可以在命令行运行SPARQL查询,也可以在安装了Jena API之后,在Java程序用使用SPARQL查询。1.2 Jena环境搭建· 到oracle官网上下载最新版本的JDK然后安装转载 2017-07-18 16:06:41 · 2935 阅读 · 0 评论 -
对Giraph的一些理解
对Giraph的一些理解这两天又重新看了一下Giraph源码,对整体架构的理解又有了新的认识和理解,下面逐点来说。一、 Giraph本质的理解:大家都知道,Giraph对用户来讲可能是一个基于Pregel模型的图运算项目,但是对于Hadoop来讲,其实它是一个普通的MapReduce任务。因此我们在运行时可以把他看成是一个mapreduce任务,只是这个任务有点特殊和原创 2017-07-29 15:07:16 · 524 阅读 · 0 评论 -
Giraph superstep中做的事情,以及其与BSP模型的对比
这是关于BSP模型以及Giraph实现里面的每一步superstep的做法的对比,可以看出Giraph在某种程度上的达到的高效性原创 2017-04-14 14:42:03 · 1229 阅读 · 0 评论 -
Giraph通信模块分析
Giraph通信模块的分析原创 2017-03-26 22:58:11 · 469 阅读 · 0 评论 -
HADOOP框架的理解
HADOOP框架简介原创 2017-03-26 16:28:05 · 794 阅读 · 0 评论 -
GraphMat论文总结
GraphMat该论文的一些思想,以及考虑其在Giraph上的一些应用的思考原创 2017-04-11 10:07:56 · 1879 阅读 · 1 评论 -
Exploring the Hidden Dimension in Graph Processing论文注释(待续。。)
图片就不贴了,OSDI16一篇文章,讲的是对于MLDL问题图中任务的划分的一种优化。大意就是将向量分为不同的部分并行的进行计算,其主要思想是将机器节点分为L组,每组均持有图的完整结构,组内根据2D划分(边分割)分布图(边负载平衡),每组当中的vertex保有1/L的向量,那么每台机器可以存更多vertex,从而组内的replicas数量减少,相对应的消息代价减少(增加了组间通信代价)。这个方法对诸如SGD、ALS都有良好的效果。原创 2017-03-24 21:43:34 · 958 阅读 · 3 评论 -
ZOOKEEPER在HADOOP中的应用
zookeeper在hadoop中的应用转载 2017-03-12 20:49:10 · 1389 阅读 · 0 评论 -
图计算框架回顾
图框架历史回归原创 2017-03-27 15:43:41 · 9226 阅读 · 2 评论 -
Pregel:大规模图处理系统(待更新ing)
这篇文章是对Pregel论文思想的理解的第一部分因为Giraph是对Pregel论文中所提到的思想的实现,即前面提到的Giraph的开发基于Pregel中的原理,所以首先要把Pregel中讲了什么搞清楚灵感对pregel的灵感来自于BSP模型,Pregel由一系列的迭代(iterations)构成,每一次迭代我们称其为superstep每一次superstep(s)原创 2017-02-20 20:07:21 · 943 阅读 · 0 评论 -
Giraph 1.0集群环境配置
环境说明以下配置过程在实验室集群,深圳集群,腾讯云集群上均测试成功,系统包括CentOS,UbuntuHadoop-1.0.2Giraph-1.0.0Jdk1.7 下面详细叙述一下在实验室集群上面配置的细节系统环境Distributor ID: UbuntuDescription: Ubuntu 16.04.3 LTSRelease: 16.04原创 2018-01-18 19:29:02 · 743 阅读 · 0 评论