自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小琳子的博客

逆水行舟,不进则退

  • 博客(10)
  • 收藏
  • 关注

转载 RDD原文翻译

该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。这篇译文翻译得很不错

2016-04-26 09:51:32 2578

转载 Spark的发展历程

2014年的大数据领域,Apache Spark(以下简称Spark)无疑最受瞩目。Spark,出自名门伯克利AMPLab之手,目前由商业公司Databricks保驾护航。自2014年3月份跻身Apache顶级项目(TLP),Spark已然成为ASF最活跃的项目之一,得到了业内广泛的支持——2014年12月发布的Spark 1.2版本包含了来自172位Contributor贡献的1000多个com

2016-04-20 16:34:52 1128

转载 graphx中Pregel函数详解

1、PregelAPI图本质上是一种递归的数据结构,其顶点的属性值依赖于其邻接顶点,而其邻接顶点属性又依赖于其邻接顶点,许多重要的图算法通过迭代计算每个顶点的属性直到到达定点条件,这些迭代的图算法被抽象成一系列图并行操作。 2、Pregel的计算模型主要分为三个函数:1、vertexProgram函数2、sendMessage函数3、messag

2016-03-07 16:06:26 4210 1

转载 网络爬虫结合搜索引擎

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,用来对网络爬虫抓取到的网络资源进行实时的索引和搜索。搜 索引擎架构在ElasticSearch之上,是一个典型的分布式在线实时交互查询架构,无单点故障,高伸缩、高可用。对大量信息的索引与搜

2015-11-30 16:06:10 4604

转载 Spark自定义分区(Partitioner)

转载自过往记忆(http://www.iteblog.com/)我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略(这两种分区的代码解析可以参见:《Spark分区器HashPartitioner和RangePartitioner代码详解》),这两种分区策略在很多情况下都适合我们的场景。但是有些情况下,Spark内部不能符合咱们的需求,

2015-11-13 09:17:48 679

转载 软件测试

近来,软件测试行业发展迅速,企业越来越重视测试了。越来越多的人加入了测试大军中,很多人也想通过自学来学习软件测试技术加入这个行业,但是现在软件测试的书籍越来越多,也良莠不齐,而且软件测试涉及的技术也越来越多。本文主要说明的是从事软件测试行业需要必备的知识,以及该如何学习,主要给大家提供一些比较优秀的书籍,并给出学习的顺序。希望通过阅读本文,读者可以明确该如何学习测试,并学习哪些知识。由于仅是个人建

2015-11-09 17:31:54 495

原创 基本正则表达式

基本正则表达式(1)^ 行开始符    例如:"^jacline"匹配所有以jacline开始的行(2)$ 行结束符    例如:"jacline$"匹配所有以jacline结束的行(3). 匹配任意一个字符    例如:jacl.ne可以匹配jacline、jaclnne等(4)[]匹配其中一个    例如:[Jj]可以匹配Jacline或者jacline其中

2015-10-23 15:30:29 318

原创 收集学习Spark GraphX的一些资料

收集学习spark GraphX的资料

2015-09-07 15:40:47 339

原创 安装spark集群详细介绍

spark集群安装,三台主机,配置不高。jdk1.7.0_79+ hadoop2.5.2 + spark1.1.0

2015-09-01 08:49:43 428

转载 spark GraphX官方文档翻译--转载

6、 Spark GraphX6.1 概述GraphX是spark的一个新组件用于图和并行图计算。在一个高水平,GraphX通过引进一个新的图抽象扩展了spark RDD:带有顶点和边属性的有向多重图。为了支持图计算,GraphX 提供了很多基本的操作(像 subgraph, joinVertices, and aggregateMessages)和pregel的一个优化变种。除此

2015-07-02 10:35:27 1617

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除