Spark亚太研究院-CSDN博客

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节：Spark架构设计(2)

三，深入RDDRDD本身是一个抽象类，具有很多具体的实现子类：RDD都会基于Partition进行计算：默认的Partitioner如下所示：其中HashPartitioner的文档说明如下：另外一种常用的Partitioner是RangePartitioner：RDD在持久化的需要考虑内存策略：Spark提供很多Storage

2014-12-29 21:34:14 586

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节：Spark架构设计(1)

一、以RDD为基石的Spark编程模型在Spark中一切都是基于RDD的：什么是RDD呢？官方给出的解释是：也就是说每个RDD都至少有以下三个函数实现:Spark自带了非常多的RDD:RDD主要分为两种：其中的transformations是lazy execution的，需要具体的action去触发，每个action操作都是一个单独的job；

2014-12-29 21:28:29 552

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第2节：Spark架构设计(2)

三， Spark的RDD 在Spark中一切都是以RDD为基础和核心的：每个RDD的API如下所示：Spark官方文档中给出了的众多的RDD：RDD中的操作分为transformations和actions两种：下面举一个例子来说明RDD的使用：另外有两

2014-12-29 21:22:49 553

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第2节：Spark架构设计(1)

一、到底什么是Spark？Spark是一个通用的大数据计算平台，基于“One Stack to rule them all”的理念成功成为了一体化多元化的大数据处理平台，轻松应对大数据处理中的实时流计算、SQL交互式查询、机器学习和图计算等： Spark源于BDAS:基于该技术堆栈，Spark目前已经成为大数据通用计算平台：二， Spark的速度

2014-12-29 21:16:44 678

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第1节：为什么Spark是大数据必然的现在和未来？(2)

三、你为什么需要Spark；你需要Spark的十大理由：1，Spark是可以革命Hadoop的目前唯一替代者，能够做Hadoop做的一切事情，同时速度比Hadoop快了100倍以上： Logistic regression in Hadoop and Spark可以看出在Spark特别擅长的领域其速度比Hadoop快120倍以上！ 2，原先支持Had

2014-12-29 21:08:40 452

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第1节：为什么Spark是大数据必然的现在和未来？(1)

一、MapReduce已死，Spark称霸由于Hadoop的MapReduce高延迟的死穴，导致Hadoop无力处理很多对时间有要求的场景，人们对其批评越来越多，Hadoop无力改变现在而导致正在死亡。正如任何领域一样，死亡是一个过程，Hadoop正在示例这样的一个过程，Hadoop的死亡过程在2012年已经开始1，原先支持Hadoop的四大商业机构纷纷宣布支持Spark；

2014-12-12 22:32:32 1381

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第3小节：动手实战Scala函数式编程(2)

3，动手实战Scala中的泛型泛型泛型类和泛型方法，也就是我们实例化类或者调用方法的时候可以指定其类型，由于Scala的泛型和Java的泛型是一致的，这里不再赘述。 4，动手实战Scala中的隐式转换、隐式参数、隐式类隐式转换是很多人学习Scala的难点，这是Scala的精髓之一：下面看一下隐藏参数的例子：上面的例子中使用了隐式参数，当然，你可以显

2014-12-11 22:11:20 483

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第3小节：动手实战Scala函数式编程(1)

函数式编程的核心特色之一是把函数作为参数传递给函数、在函数内部可以定义函数等。 1，动手实战Scala高阶函数声明一个List集合实例：List集合所在的包已经被预定义自动导入，所以此处不需要导入包，同时，这里直接使用List实例化对象，其实是用来List的object对象的apply方法；我们使用map函数把List中的每个值都乘以2：在上面的

2014-12-01 22:08:12 477

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第2小节：动手实战Scala面向对象编程(3)

5，动手实战Scala中的apply方法和单例对象新建一个类：额外提一点，放在object对象中的方法都是静态方法，如下所示：接下来看一下apply方法的使用：上面代码总当我们使用“val a = ApplyTest()”的使用会导致apply方法的调用并返回该方法调用的值，也就是ApplyTest的实例化对象。 Class中也可以由a

2014-12-01 21:57:30 430

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第2小节：动手实战Scala面向对象编程(2)

3，动手实战Scala中的抽象类抽象类的定义需要使用abstract关键字：上面的代码定义并实现了抽象方法，需要注意的是我们把直接运行的代码放在了App这个trait的子类中，关于App内部帮助我们实现了main方法并管理了工程师写的代码；下面看一下抽象类中未被初始化的变量的使用：4，动手实战Scala中的trait trait类似于Java 8中可以

2014-11-27 21:49:55 372

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第2小节：动手实战Scala面向对象编程(1)

1，动手实战Scala中类的使用为方便后续代表的编写，我们创建一个新的代码工作区：创建一个Person类：其中的“_”是PlaceHolder，下面我们看一下如果使用该类：下面看一下private[this]的使用：所以使用private[this]定义后的内容就无法外部使用了，这起到了非常好的保护作用；接下来看一下类的构造函数，首先

2014-11-26 21:29:12 452

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第1小节：动手体验Scala(3)

3，Scala中的表达式实战首先看一下Scala中优雅的条件的表达式：接下来看一下while循环表达式：下面看一下for条件表达式：在for中也可以使用until：如果想在条件表达式中筛选出1到10中所有偶数，可以采用下面的写法：

2014-11-25 20:23:50 416

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第1小节：动手体验Scala(2)

2，Scala函数特性编程实战当函数不带参数的使用，我们调用的时候可以省略括号：

2014-11-24 22:08:14 381

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第1小节：动手体验Scala(1)

1，在命令行和Scala IDE for Eclipse中动手体验Scala Scala一门基于JVM的面向对象和函数式编程相结合的静态语言，安装和运行Scala首先需要Java虚拟环境，直接到官方网站下载和安装Java即可：http://www.oracle.com/technetwork/java/javase/downloads/index.html 因为Spark的最新的

2014-11-22 21:22:26 406

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）(13)

从控制台可以看到我们的程序成功在集群上运行： Detail for stage 1：

2014-11-20 10:53:59 538

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）(12)

第三步：测试Spark集群把Spark安装包下的”README.txt”上传到通过hdfs的web控制台可以发现成功上传了文件：

2014-11-19 13:05:41 403

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）(11)

此时我们进入了Spark的shell世界，根据输出的提示信息，我们可以通过“http://SparkMaster:4040” 从Web的角度看一下SparkUI的情况，如下图所示：

2014-11-18 22:46:26 401

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）(10)

在SparkWorker1 和SparkWorker2上使用jps会看到如下进程信息：第二步：启动Spark集群在Hadoop集群成功启动的基础上，启动Spark集群需要使用Spark的sbin目录下“start-all.sh”：

2014-11-17 20:33:14 447

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）(9)

第二步：构造分布式的Spark1.0.2集群 1,下载Scala 2.10.4，具体下载地址：http://www.scala-lang.org/download/2.10.4.html 在Ubuntu机器上Scala会帮助我们自动选择“scala-2.10.4.tgz”进行下载； 2，安装和配置Scala我们需要在SparkMaster、SparkWorker1以及S

2014-11-17 20:28:00 495

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）(8)

也可以查看一下SparkWorker2上的运行情况：

2014-11-13 21:11:51 424

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）(7)

当我们在运行作业的过程中也可以查看Web控制台的信息：

2014-11-12 21:58:34 468

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（6）

结束historyserver的命令如下所示：第四步：验证Hadoop分布式集群首先在hdfs文件系统上创建两个目录，创建过程如下所示：Hdfs中的/data/wordcount用来存放Hadoop自带的WordCount例子的数据文件，程序运行的结果输出到/output/wordcount目录中，透过Web控制可以发现我们成功创建了两个文件夹：

2014-11-03 14:38:11 873 1

原创【互动问答分享】第18期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂【第18期互动问答分享】 Q1：Master和Driver的是同一个东西吗？两者不是同一个东西，在Standalone模式下Master是用于集群资源管理和调度的，而Driver适用于指挥Worker上的Executor通过多线的方式处理任务的； Master位于集群的管理节

2014-10-31 15:00:38 627

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（5）

从控制台我们可以看见有两个DataNode，此时我们点击“Live Nodes”查看一下其信息：从控制台中看到了我们的两个Datanode节点SparkWorker1和SparkWorker2，这正是我们预期中的！第三步：启动yarn集群使用jps命令可以发现SparkMaster机器上启动了ResourceManager进程：而在Spa

2014-10-21 09:34:10 1245

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（4）

7,在SparkWorker1和SparkWorker2上完成和SparkMaster同样的Hadoop 2.2.0操作，建议使用SCP命令把SparkMaster上安装和配置的Hadoop的各项内容拷贝到SparkWorker1和SparkWorker2上;8,启动并验证Hadoop分布式集群第一步：格式化hdfs文件系统：第二步：进入

2014-10-16 14:17:47 1094

原创 2014年spark开发者大赛火热进行中！

2014年最热门的IT技术大赛，由Spark亚太研究院联合国内领先的IT技术创新。面向云计算大数据从业者、Spark技术爱好者及数百所高校在读学生。无论是对Spark有浓厚兴趣的初学者、或者Spark应用高手，还是Spark源码级别大牛，都可以借助本次大赛，一展才华，就Spark技术与应用实践展开交流及切磋。

2014-10-14 17:32:28 856

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（3）

第四步修改配置文件slaves，如下所示：我们设置Hadoop集群中的从节点为SparkWorker1和SparkWorker2，把slaves文件的内容修改为：第五步修改配置文件core-site.xml，如下所示：把core-site.xml文件的内容修改为：上述是core-site.xml文件的最小化配置，core-si

2014-10-10 09:47:09 1099

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（2）

把下载下来的“hadoop-2.2.0.tar.gz”拷贝到“/usr/local/hadoop/”目录下并解压：修改系统配置文件，修改~/.bashrc文件配置“HADOOP_HOME”并把“HADOOP_HOME”下的bin文件夹加入PATH中，修改完后使用source命令使配置生效。接下来在hadoop目录下按照如下命令创建文件夹：\接下来开始

2014-10-09 14:13:42 1129

原创【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代” Spark亚太研究院100期公益大讲堂【第15期互动问答分享】 Q1：AppClient和worker、master之间的关系是什么？ AppClient是在StandAlone模式下SparkContext.runJob的时候

2014-10-08 15:00:22 971

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（1）

第一步：构造分布式Hadoop2.2.0集群1,在Windows 7（本教程中的Spark集群运行的机器是8G的Windows内存）上安装VMware虚拟机（我们安装的是VMware-workstation-full-9.0.2），本教程中的VMware Workstation下载地址： https://my.vmware.com/cn/web/vmware/det

2014-10-08 13:16:50 1598

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（8）

第五步：测试Spark IDE开发环境此时我们直接选择SparkPi并运行的话会出现如下错误提示：从提示中可以看出是找不到Spark程序运行的Master机器。此时需要配置SparkPi的执行环境：

2014-09-26 11:31:14 594

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（7）

第四步：通过Spark的IDE搭建并测试Spark开发环境 Step 1：导入Spark-hadoop对应的包，次选择“File”–> “Project Structure” –> “Libraries”，选择“+”，将spark-hadoop 对应的包导入:点击“OK”确认：点击“OK”:

2014-09-25 14:11:50 532

原创【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂【第13期互动问答分享】 Q1：tachyon+spark框架现在有很多大公司在使用吧? Yahoo!已经在长期大规模使用；国内也有公司在使用； Q2：impala和spark sql如何选择呢？ Impala已经被官方宣布“安乐死”，被官方温柔的放弃；

2014-09-24 10:13:09 455

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（6）

点击确认后出现如下视图：

2014-09-24 09:49:41 501

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（5）

此时把我们的“firstScalaApp”的源代码修改为如下内容：

2014-09-23 10:46:24 538

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（4）

此时重启IDEA:此时重启IDEA:

2014-09-22 14:31:50 573

原创【互动问答分享】第12期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂【第12期互动问答分享】 Q1：jobserver 企业使用情况如何？中国有一家视频网站已经使用超过JobServer超过半年的时间；2013年和2014年Spark Summit均大力推荐使用JobServer； Q2：请问，jobserver是适合企业内部还是供外部客户使用（可能

2014-09-19 13:16:42 861

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（3）

配置完成后保存退出并执行source命令使配置文件生效。Step 3：运行IDEA并安装和配置IDEA的Scala开发插件：官方文档指出：我们进入IDEA的bin目录：

2014-09-19 11:21:30 679

原创【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（2）

第二步：使用Spark的cache机制观察一下效率的提升基于上面的内容，我们在执行一下以下语句：

2014-09-17 10:07:09 735

原创【互动问答分享】第11期决胜云计算大数据时代Spark亚太研究院公益大讲堂

Q1：docker成熟度如何？ Docker是2013年和2014年最火爆的云计算开源项目； Baidu公司是中国使用Docker最为深入和最大规模的公司，线上稳定运行数十万个Docker容器，目前已经使用Docker全面全面升级了自己的BAE，升级后的BAE无论是性能还是业务表现均超出预期； Q2：Docker与云计算OpenSta

2014-09-12 10:12:05 703

【讲义-第10期Spark公益大讲堂】Spark on Yarn-.pdf

空空如也