Spark书籍连载_Spark亚太研究院的博客-CSDN博客

Spark书籍连载

关注

文章平均质量分 51

关注数：文章数：31 文章阅读量：25157 文章收藏量：1

作者: Spark亚太研究院

这个作者很懒，什么都没留下…

展开

【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂

“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂【第6期互动问答分享】 Q1：sparkstreaming可以不同数据流 join吗？ Spark Streaming不同的数据流可以进行join操作； Spark Streaming is an extension of the coreSpark API that allows e

原创 2014-08-04 15:42:56 · 732 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群-安装Ubuntu系统(3)

启动虚拟机，正是开启Ubuntu系统的安装！点击“Power on this virtual machine”启动虚拟机，此时进入Ubuntu的安装等待一段时间后虚拟机自动进入如下界面：

原创 2014-08-11 17:21:36 · 632 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群-安装Ubuntu系统(2)

3.点击“Finish”完成虚拟系统的创建，如下图所示：

原创 2014-08-11 17:07:26 · 551 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第三步）（1）

第一步：Spark集群需要的软件；在1、2讲的从零起步构建好的Hadoop集群的基础上构建Spark集群，我们这里采用2014年5月30日发布的Spark 1.0.0版本，也就是Spark的最新版本，要想基于Spark 1.0.0构建Spark集群，需要的软件如下： 1.Spark 1.0.0，笔者这里使用的是spark-1.0.0-bin-hadoop1.tgz，

原创 2014-09-04 10:59:19 · 1043 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（2）

第二步：使用Spark的cache机制观察一下效率的提升基于上面的内容，我们在执行一下以下语句：

原创 2014-09-17 10:07:09 · 735 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（7）

第四步：通过Spark的IDE搭建并测试Spark开发环境 Step 1：导入Spark-hadoop对应的包，次选择“File”–> “Project Structure” –> “Libraries”，选择“+”，将spark-hadoop 对应的包导入:点击“OK”确认：点击“OK”:

原创 2014-09-25 14:11:50 · 531 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群-安装Ubuntu系统(1)

Unbuntu系统是我们开发Hadoop时最常用的操作系统，下面带领大家一步步完成Vmware虚拟机下Unbuntu系统的安装创建Vmware中的虚拟系统：

原创 2014-08-11 16:57:18 · 750 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群-运行Ubuntu系统（2）

安装Java1.打开终端，建立新目录“/usr/lib/java”，如下图所示：2.把下载的JDK文件移到刚刚创建的“/usr/lib/java”中，如下图所示3.解压JDK文件，如下图所示：

原创 2014-08-13 10:55:23 · 719 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群-配置Hadoop-伪分布模式并运行Wordcount（2）

执行文件拷贝操作

原创 2014-08-27 11:17:22 · 839 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（1）

第一步：构造分布式Hadoop2.2.0集群1,在Windows 7（本教程中的Spark集群运行的机器是8G的Windows内存）上安装VMware虚拟机（我们安装的是VMware-workstation-full-9.0.2），本教程中的VMware Workstation下载地址： https://my.vmware.com/cn/web/vmware/det

原创 2014-10-08 13:16:50 · 1597 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（2）

把下载下来的“hadoop-2.2.0.tar.gz”拷贝到“/usr/local/hadoop/”目录下并解压：修改系统配置文件，修改~/.bashrc文件配置“HADOOP_HOME”并把“HADOOP_HOME”下的bin文件夹加入PATH中，修改完后使用source命令使配置生效。接下来在hadoop目录下按照如下命令创建文件夹：\接下来开始

原创 2014-10-09 14:13:42 · 1129 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（3）

第四步修改配置文件slaves，如下所示：我们设置Hadoop集群中的从节点为SparkWorker1和SparkWorker2，把slaves文件的内容修改为：第五步修改配置文件core-site.xml，如下所示：把core-site.xml文件的内容修改为：上述是core-site.xml文件的最小化配置，core-si

原创 2014-10-10 09:47:09 · 1099 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（6）

结束historyserver的命令如下所示：第四步：验证Hadoop分布式集群首先在hdfs文件系统上创建两个目录，创建过程如下所示：Hdfs中的/data/wordcount用来存放Hadoop自带的WordCount例子的数据文件，程序运行的结果输出到/output/wordcount目录中，透过Web控制可以发现我们成功创建了两个文件夹：

原创 2014-11-03 14:38:11 · 873 阅读 · 1 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（4）

7,在SparkWorker1和SparkWorker2上完成和SparkMaster同样的Hadoop 2.2.0操作，建议使用SCP命令把SparkMaster上安装和配置的Hadoop的各项内容拷贝到SparkWorker1和SparkWorker2上;8,启动并验证Hadoop分布式集群第一步：格式化hdfs文件系统：第二步：进入

原创 2014-10-16 14:17:47 · 1091 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群-运行Ubuntu系统（1）

为了简化权限等问题，下面我们以root用户的身份登录和使用Ubuntu系统，而Ubuntu在默认情况下并没有开启root用户，这需要我们做如下设置：sudo -s进入 root用户权限模式vim /etc/lightdm/lightdm.conf[SeatDefaults]greeter-session=unity-greeteruser-session=ubuntugr

原创 2014-08-12 10:52:31 · 592 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群-配置Hadoop伪分布模式并运行Wordcount示例（1）

第四步：配置Hadoop伪分布模式并运行Wordcount示例伪分布模式主要涉及一下的配置信息：修改Hadoop的核心配置文件core-site.xml，主要是配置HDFS的地址和端口号；修改Hadoop中HDFS的配置文件hdfs-site.xml，主要是配置replication;修改Hadoop的MapReduce的配置文件mapred-site.xml，主要是配置Job

原创 2014-08-25 16:08:20 · 581 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第二步）（4）

4.测试Hadoop分布式集群环境；首先在通过Master节点格式化集群的文件系统：

原创 2014-09-03 11:02:25 · 709 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（3）

配置完成后保存退出并执行source命令使配置文件生效。Step 3：运行IDEA并安装和配置IDEA的Scala开发插件：官方文档指出：我们进入IDEA的bin目录：

原创 2014-09-19 11:21:30 · 678 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第三步）（2）

安装Spark Master、Slave1、Slave2这三台机器上均需要安装Spark。首先在Master上安装Spark，具体步骤如下：第一步：把Master上的Spark解压：

原创 2014-09-09 12:45:26 · 1202 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第三步）（3）

启动并查看集群的状况第一步：启动Hadoop集群，这个在第二讲中讲解的非常细致，在此不再赘述：启动之后在Master这台机器上使用jps命令，可以看到如下进程信息：在Slave1 和Slave2上使用jps会看到如下进程信息：第二步：启动Spark集群在Hadoop集群成功启动的基础上，启动Spark集群需要使用Spark的sbin

原创 2014-09-10 10:08:37 · 1141 阅读 · 0 评论
Spark教程-构建Spark集群-配置Hadoop单机模式并运行Wordcount（1）

安装sshHadoop是采用ssh进行通信的，此时我们要设置密码为空，即不需要密码登陆，这样免去每次通信时都输入秘密，安装如下：

原创 2014-08-14 11:30:37 · 604 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（4）

此时重启IDEA:此时重启IDEA:

原创 2014-09-22 14:31:50 · 573 阅读 · 0 评论
Spark教程-构建Spark集群-配置Hadoop单机模式并运行Wordcount（2）

2.安装rsync我们的Ubuntu 12.10版本默认安装了rsync，我们可以通过以下命令来安装或者更新rsync3.安装hadoop，家林把下载下来的最新稳定版本的hadoop保存在电脑本地的以下位置：

原创 2014-08-15 15:08:52 · 739 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第二步）（1）

在VMWare 中准备第二、第三台运行Ubuntu系统的机器；在VMWare中构建第二、三台运行Ubuntu的机器和构建第一台机器完全一样，再次不在赘述。。与安装第一台Ubuntu机器不同的几点是：第一点：我们把第二、三台Ubuntu机器命名为了Slave1、Slave2，如下图所示：创建完的VMware中就有三台虚拟机了：第二

原创 2014-08-28 16:45:47 · 812 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（1）

那我们如何验证Spark Shell对README.md这个文件中的“Spark”出现的15次是正确的呢？其实方法很简单，我们可以使用Ubuntu自带的wc命令来统计，如下所示：发现此时的执行结果也是15次，和Spark Shell的计数是一样一样的。

原创 2014-09-11 13:39:47 · 612 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（5）

此时把我们的“firstScalaApp”的源代码修改为如下内容：

原创 2014-09-23 10:46:24 · 537 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（6）

点击确认后出现如下视图：

原创 2014-09-24 09:49:41 · 501 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第二步）（2）

进入第二台机器，看一下这台主机的IP地址：可以看出这台主机的IP地址是“192.168.184.131”.我们在/etc/hostname中把主机名称修改为“Slave1”:

原创 2014-09-01 10:15:27 · 821 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第二步）（3）

首先修改Master的core-site.xml文件，此时的文件内容是：我们把“localhost”域名修改为“Master”:

原创 2014-09-02 12:03:34 · 897 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（8）

第五步：测试Spark IDE开发环境此时我们直接选择SparkPi并运行的话会出现如下错误提示：从提示中可以看出是找不到Spark程序运行的Master机器。此时需要配置SparkPi的执行环境：

原创 2014-09-26 11:31:14 · 593 阅读 · 0 评论
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（5）

从控制台我们可以看见有两个DataNode，此时我们点击“Live Nodes”查看一下其信息：从控制台中看到了我们的两个Datanode节点SparkWorker1和SparkWorker2，这正是我们预期中的！第三步：启动yarn集群使用jps命令可以发现SparkMaster机器上启动了ResourceManager进程：而在Spa

原创 2014-10-21 09:34:10 · 1244 阅读 · 0 评论

Spark书籍连载

作者: Spark亚太研究院

【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-安装Ubuntu系统(3)

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-安装Ubuntu系统(2)

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第三步）（1）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第四步）（2）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第四步）（7）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-安装Ubuntu系统(1)

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-运行Ubuntu系统（2）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-配置Hadoop-伪分布模式并运行Wordcount（2）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第五步）（1）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第五步）（2）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第五步）（3）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第五步）（6）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第五步）（4）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-运行Ubuntu系统（1）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-配置Hadoop伪分布模式并运行Wordcount示例（1）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第二步）（4）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第四步）（3）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第三步）（2）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第三步）（3）

Spark教程-构建Spark集群-配置Hadoop单机模式并运行Wordcount（1）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第四步）（4）

Spark教程-构建Spark集群-配置Hadoop单机模式并运行Wordcount（2）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第二步）（1）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第四步）（1）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第四步）（5）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第四步）（6）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第二步）（2）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第二步）（3）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第四步）（8）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群（第五步）（5）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群-安装Ubuntu系统(3)

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群-安装Ubuntu系统(2)

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第三步）（1）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（2）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（7）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群-安装Ubuntu系统(1)

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群-运行Ubuntu系统（2）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群-配置Hadoop-伪分布模式并运行Wordcount（2）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（1）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（2）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（3）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（6）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（4）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群-运行Ubuntu系统（1）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群-配置Hadoop伪分布模式并运行Wordcount示例（1）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第二步）（4）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（3）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第三步）（2）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第三步）（3）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（4）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第二步）（1）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（1）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（5）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（6）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第二步）（2）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第二步）（3）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第四步）（8）

【Spark亚太研究院系列丛书】Spark实战高手之路-第一章构建Spark集群（第五步）（5）