自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(67)
  • 资源 (2)
  • 收藏
  • 关注

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节:Spark架构设计(2)

三,深入RDDRDD本身是一个抽象类,具有很多具体的实现子类:RDD都会基于Partition进行计算:默认的Partitioner如下所示: 其中HashPartitioner的文档说明如下:另外一种常用的Partitioner是RangePartitioner:RDD在持久化的需要考虑内存策略:Spark提供很多Storage

2014-12-29 21:34:14 586

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节:Spark架构设计(1)

一、以RDD为基石的Spark编程模型在Spark中一切都是基于RDD的:什么是RDD呢?官方给出的解释是:也就是说每个RDD都至少有以下三个函数实现:Spark自带了非常多的RDD:RDD主要分为两种:其中的transformations是lazy execution的,需要具体的action去触发,每个action操作都是一个单独的job;

2014-12-29 21:28:29 552

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第2节:Spark架构设计(2)

三, Spark的RDD 在Spark中一切都是以RDD为基础和核心的:             每个RDD的API如下所示:Spark官方文档中给出了的众多的RDD:RDD中的操作分为transformations和actions两种: 下面举一个例子来说明RDD的使用: 另外有两

2014-12-29 21:22:49 553

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第2节:Spark架构设计(1)

一、到底什么是Spark?Spark是一个通用的大数据计算平台,基于“One Stack to rule them all”的理念成功成为了一体化多元化的大数据处理平台,轻松应对大数据处理中的实时流计算、SQL交互式查询、机器学习和图计算等: Spark源于BDAS:基于该技术堆栈,Spark目前已经成为大数据通用计算平台:  二, Spark的速度

2014-12-29 21:16:44 678

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第1节:为什么Spark是大数据必然的现在和未来?(2)

三、你为什么需要Spark;你需要Spark的十大理由:1,Spark是可以革命Hadoop的目前唯一替代者,能够做Hadoop做的一切事情,同时速度比Hadoop快了100倍以上: Logistic regression in Hadoop and Spark可以看出在Spark特别擅长的领域其速度比Hadoop快120倍以上! 2,原先支持Had

2014-12-29 21:08:40 452

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第1节:为什么Spark是大数据必然的现在和未来?(1)

一、MapReduce已死,Spark称霸 由于Hadoop的MapReduce高延迟的死穴,导致Hadoop无力处理很多对时间有要求的场景,人们对其批评越来越多,Hadoop无力改变现在而导致正在死亡。正如任何领域一样,死亡是一个过程,Hadoop正在示例这样的一个过程,Hadoop的死亡过程在2012年已经开始1,原先支持Hadoop的四大商业机构纷纷宣布支持Spark;

2014-12-12 22:32:32 1381

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第3小节:动手实战Scala函数式编程(2)

3,动手实战Scala中的泛型泛型泛型类和泛型方法,也就是我们实例化类或者调用方法的时候可以指定其类型,由于Scala的泛型和Java的泛型是一致的,这里不再赘述。  4,动手实战Scala中的隐式转换、隐式参数、隐式类隐式转换是很多人学习Scala的难点,这是Scala的精髓之一:下面看一下隐藏参数的例子:上面的例子中使用了隐式参数,当然,你可以显

2014-12-11 22:11:20 483

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第3小节:动手实战Scala函数式编程(1)

函数式编程的核心特色之一是把函数作为参数传递给函数、在函数内部可以定义函数等。 1,动手实战Scala高阶函数声明一个List集合实例:List集合所在的包已经被预定义自动导入,所以此处不需要导入包,同时,这里直接使用List实例化对象,其实是用来List的object对象的apply方法;我们使用map函数把List中的每个值都乘以2:在上面的

2014-12-01 22:08:12 477

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第2小节:动手实战Scala面向对象编程(3)

5,动手实战Scala中的apply方法和单例对象 新建一个类:额外提一点,放在object对象中的方法都是静态方法,如下所示:接下来看一下apply方法的使用:上面代码总当我们使用“val a = ApplyTest()”的使用会导致apply方法的调用并返回该方法调用的值,也就是ApplyTest的实例化对象。 Class中也可以由a

2014-12-01 21:57:30 430

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第2小节:动手实战Scala面向对象编程(2)

3,动手实战Scala中的抽象类 抽象类的定义需要使用abstract关键字:上面的代码定义并实现了抽象方法,需要注意的是我们把直接运行的代码放在了App这个trait的子类中,关于App内部帮助我们实现了main方法并管理了工程师写的代码;下面看一下抽象类中未被初始化的变量的使用:4,动手实战Scala中的trait trait类似于Java 8中可以

2014-11-27 21:49:55 372

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第2小节:动手实战Scala面向对象编程(1)

1, 动手实战Scala中类的使用 为方便后续代表的编写,我们创建一个新的代码工作区:创建一个Person类:其中的“_”是PlaceHolder,下面我们看一下如果使用该类:下面看一下private[this]的使用:所以使用private[this]定义后的内容就无法外部使用了,这起到了非常好的保护作用;接下来看一下类的构造函数,首先

2014-11-26 21:29:12 452

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第1小节:动手体验Scala(3)

3,Scala中的表达式实战首先看一下Scala中优雅的条件的表达式:接下来看一下while循环表达式:下面看一下for条件表达式:在for中也可以使用until:如果想在条件表达式中筛选出1到10中所有偶数,可以采用下面的写法:

2014-11-25 20:23:50 416

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第1小节:动手体验Scala(2)

2,Scala函数特性编程实战 当函数不带参数的使用,我们调用的时候可以省略括号:

2014-11-24 22:08:14 381

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第2章动手实战Scala第1小节:动手体验Scala(1)

1,在命令行和Scala IDE for Eclipse中动手体验Scala Scala一门基于JVM的面向对象和函数式编程相结合的静态语言,安装和运行Scala首先需要Java虚拟环境,直接到官方网站下载和安装Java即可:http://www.oracle.com/technetwork/java/javase/downloads/index.html 因为Spark的最新的 

2014-11-22 21:22:26 406

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(13)

从控制台可以看到我们的程序成功在集群上运行: Detail for stage 1:

2014-11-20 10:53:59 538

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(12)

第三步:测试Spark集群 把Spark安装包下的”README.txt”上传到通过hdfs的web控制台可以发现成功上传了文件:

2014-11-19 13:05:41 403

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(11)

此时我们进入了Spark的shell世界,根据输出的提示信息,我们可以通过“http://SparkMaster:4040” 从Web的角度看一下SparkUI的情况,如下图所示:

2014-11-18 22:46:26 401

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(10)

在SparkWorker1 和SparkWorker2上使用jps会看到如下进程信息:第二步:启动Spark集群在Hadoop集群成功启动的基础上,启动Spark集群需要使用Spark的sbin目录下“start-all.sh”:

2014-11-17 20:33:14 447

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(9)

第二步:构造分布式的Spark1.0.2集群 1,下载Scala 2.10.4,具体下载地址:http://www.scala-lang.org/download/2.10.4.html 在Ubuntu机器上Scala会帮助我们自动选择“scala-2.10.4.tgz”进行下载; 2,安装和配置Scala我们需要在SparkMaster、SparkWorker1以及S

2014-11-17 20:28:00 495

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(8)

也可以查看一下SparkWorker2上的运行情况:

2014-11-13 21:11:51 424

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(7)

当我们在运行作业的过程中也可以查看Web控制台的信息:

2014-11-12 21:58:34 468

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(6)

结束historyserver的命令如下所示:第四步:验证Hadoop分布式集群首先在hdfs文件系统上创建两个目录,创建过程如下所示:Hdfs中的/data/wordcount用来存放Hadoop自带的WordCount例子的数据文件,程序运行的结果输出到/output/wordcount目录中,透过Web控制可以发现我们成功创建了两个文件夹:

2014-11-03 14:38:11 873 1

原创 【互动问答分享】第18期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂 【第18期互动问答分享】  Q1:Master和Driver的是同一个东西吗?        两者不是同一个东西,在Standalone模式下Master是用于集群资源管理和调度的,而Driver适用于指挥Worker上的Executor通过多线的方式处理任务的;        Master位于集群的管理节

2014-10-31 15:00:38 627

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(5)

从控制台我们可以看见有两个DataNode,此时我们点击“Live Nodes”查看一下其信息:从控制台中看到了我们的两个Datanode节点SparkWorker1和SparkWorker2,这正是我们预期中的!第三步:启动yarn集群使用jps命令可以发现SparkMaster机器上启动了ResourceManager进程:而在Spa

2014-10-21 09:34:10 1245

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(4)

7,在SparkWorker1和SparkWorker2上完成和SparkMaster同样的Hadoop 2.2.0操作,建议使用SCP命令把SparkMaster上安装和配置的Hadoop的各项内容拷贝到SparkWorker1和SparkWorker2上;8,启动并验证Hadoop分布式集群第一步:格式化hdfs文件系统:第二步:进入

2014-10-16 14:17:47 1094

原创 2014年spark开发者大赛火热进行中!

2014年最热门的IT技术大赛,由Spark亚太研究院联合国内领先的IT技术创新。面向云计算大数据从业者、Spark技术爱好者及数百所高校在读学生。无论是对Spark有浓厚兴趣的初学者、或者Spark应用高手,还是Spark源码级别大牛,都可以借助本次大赛,一展才华,就Spark技术与应用实践展开交流及切磋。

2014-10-14 17:32:28 856

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(3)

第四步修改配置文件slaves,如下所示:我们设置Hadoop集群中的从节点为SparkWorker1和SparkWorker2,把slaves文件的内容修改为:第五步修改配置文件core-site.xml,如下所示:把core-site.xml文件的内容修改为:上述是core-site.xml文件的最小化配置,core-si

2014-10-10 09:47:09 1099

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(2)

把下载下来的“hadoop-2.2.0.tar.gz”拷贝到“/usr/local/hadoop/”目录下并解压:修改系统配置文件,修改~/.bashrc文件配置“HADOOP_HOME”并把“HADOOP_HOME”下的bin文件夹加入PATH中,修改完后使用source命令使配置生效。接下来在hadoop目录下按照如下命令创建文件夹:\接下来开始

2014-10-09 14:13:42 1129

原创 【互动问答分享】第15期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代”                                                          Spark亚太研究院100期公益大讲堂 【第15期互动问答分享】 Q1:AppClient和worker、master之间的关系是什么?        AppClient是在StandAlone模式下SparkContext.runJob的时候

2014-10-08 15:00:22 971

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(1)

第一步:构造分布式Hadoop2.2.0集群1,在Windows 7(本教程中的Spark集群运行的机器是8G的Windows内存)上安装VMware虚拟机(我们安装的是VMware-workstation-full-9.0.2),本教程中的VMware Workstation下载地址:       https://my.vmware.com/cn/web/vmware/det

2014-10-08 13:16:50 1598

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(8)

第五步:测试Spark IDE开发环境此时我们直接选择SparkPi并运行的话会出现如下错误提示:从提示中可以看出是找不到Spark程序运行的Master机器。此时需要配置SparkPi的执行环境:

2014-09-26 11:31:14 594

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(7)

第四步:通过Spark的IDE搭建并测试Spark开发环境 Step 1:导入Spark-hadoop对应的包,次选择“File”–> “Project Structure” –> “Libraries”,选择“+”,将spark-hadoop 对应的包导入:点击“OK”确认:点击“OK”:

2014-09-25 14:11:50 532

原创 【互动问答分享】第13期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂 【第13期互动问答分享】 Q1:tachyon+spark框架现在有很多大公司在使用吧?        Yahoo!已经在长期大规模使用;        国内也有公司在使用; Q2:impala和spark sql如何选择呢?        Impala已经被官方宣布“安乐死”,被官方温柔的放弃;

2014-09-24 10:13:09 455

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(6)

点击确认后出现如下视图:

2014-09-24 09:49:41 501

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(5)

此时把我们的“firstScalaApp”的源代码修改为如下内容:

2014-09-23 10:46:24 538

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(4)

此时重启IDEA:此时重启IDEA:

2014-09-22 14:31:50 573

原创 【互动问答分享】第12期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂 【第12期互动问答分享】 Q1:jobserver 企业使用情况如何?中国有一家视频网站已经使用超过JobServer超过半年的时间;2013年和2014年Spark Summit均大力推荐使用JobServer; Q2:请问,jobserver是适合企业内部还是供外部客户使用(可能

2014-09-19 13:16:42 861

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(3)

配置完成后保存退出并执行source命令使配置文件生效。Step 3:运行IDEA并安装和配置IDEA的Scala开发插件:官方文档指出:我们进入IDEA的bin目录:

2014-09-19 11:21:30 679

原创 【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(2)

第二步:使用Spark的cache机制观察一下效率的提升 基于上面的内容,我们在执行一下以下语句:

2014-09-17 10:07:09 735

原创 【互动问答分享】第11期决胜云计算大数据时代Spark亚太研究院公益大讲堂

Q1:docker成熟度如何?         Docker是2013年和2014年最火爆的云计算开源项目;         Baidu公司是中国使用Docker最为深入和最大规模的公司,线上稳定运行数十万个Docker容器,目前已经使用Docker全面全面升级了自己的BAE,升级后的BAE无论是性能还是业务表现均超出预期; Q2:Docker与云计算OpenSta

2014-09-12 10:12:05 703

【讲义-第10期Spark公益大讲堂】Spark on Yarn-.pdf

【讲义-第10期Spark公益大讲堂】Spark on Yarn-.pdf

2014-08-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除