Spark书籍连载
文章平均质量分 51
Spark亚太研究院
这个作者很懒,什么都没留下…
展开
-
【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂
“决胜云计算大数据时代”Spark亚太研究院100期公益大讲堂 【第6期互动问答分享】 Q1:sparkstreaming可以不同数据流 join吗? Spark Streaming不同的数据流可以进行join操作; Spark Streaming is an extension of the coreSpark API that allows e原创 2014-08-04 15:42:56 · 732 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-安装Ubuntu系统(3)
启动虚拟机,正是开启Ubuntu系统的安装!点击“Power on this virtual machine”启动虚拟机,此时进入Ubuntu的安装等待一段时间后虚拟机自动进入如下界面:原创 2014-08-11 17:21:36 · 632 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-安装Ubuntu系统(2)
3.点击“Finish”完成虚拟系统的创建,如下图所示:原创 2014-08-11 17:07:26 · 551 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第三步)(1)
第一步:Spark集群需要的软件; 在1、2讲的从零起步构建好的Hadoop集群的基础上构建Spark集群,我们这里采用2014年5月30日发布的Spark 1.0.0版本,也就是Spark的最新版本,要想基于Spark 1.0.0构建Spark集群,需要的软件如下: 1.Spark 1.0.0,笔者这里使用的是spark-1.0.0-bin-hadoop1.tgz,原创 2014-09-04 10:59:19 · 1043 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(2)
第二步:使用Spark的cache机制观察一下效率的提升 基于上面的内容,我们在执行一下以下语句:原创 2014-09-17 10:07:09 · 735 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(7)
第四步:通过Spark的IDE搭建并测试Spark开发环境 Step 1:导入Spark-hadoop对应的包,次选择“File”–> “Project Structure” –> “Libraries”,选择“+”,将spark-hadoop 对应的包导入:点击“OK”确认:点击“OK”:原创 2014-09-25 14:11:50 · 531 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-安装Ubuntu系统(1)
Unbuntu系统是我们开发Hadoop时最常用的操作系统,下面带领大家一步步完成Vmware虚拟机下Unbuntu系统的安装创建Vmware中的虚拟系统:原创 2014-08-11 16:57:18 · 750 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-运行Ubuntu系统(2)
安装Java1.打开终端,建立新目录“/usr/lib/java”,如下图所示:2.把下载的JDK文件移到刚刚创建的“/usr/lib/java”中,如下图所示3.解压JDK文件,如下图所示:原创 2014-08-13 10:55:23 · 719 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-配置Hadoop-伪分布模式并运行Wordcount(2)
执行文件拷贝操作原创 2014-08-27 11:17:22 · 839 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(1)
第一步:构造分布式Hadoop2.2.0集群1,在Windows 7(本教程中的Spark集群运行的机器是8G的Windows内存)上安装VMware虚拟机(我们安装的是VMware-workstation-full-9.0.2),本教程中的VMware Workstation下载地址: https://my.vmware.com/cn/web/vmware/det原创 2014-10-08 13:16:50 · 1597 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(2)
把下载下来的“hadoop-2.2.0.tar.gz”拷贝到“/usr/local/hadoop/”目录下并解压:修改系统配置文件,修改~/.bashrc文件配置“HADOOP_HOME”并把“HADOOP_HOME”下的bin文件夹加入PATH中,修改完后使用source命令使配置生效。接下来在hadoop目录下按照如下命令创建文件夹:\接下来开始原创 2014-10-09 14:13:42 · 1129 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(3)
第四步修改配置文件slaves,如下所示:我们设置Hadoop集群中的从节点为SparkWorker1和SparkWorker2,把slaves文件的内容修改为:第五步修改配置文件core-site.xml,如下所示:把core-site.xml文件的内容修改为:上述是core-site.xml文件的最小化配置,core-si原创 2014-10-10 09:47:09 · 1099 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(6)
结束historyserver的命令如下所示:第四步:验证Hadoop分布式集群首先在hdfs文件系统上创建两个目录,创建过程如下所示:Hdfs中的/data/wordcount用来存放Hadoop自带的WordCount例子的数据文件,程序运行的结果输出到/output/wordcount目录中,透过Web控制可以发现我们成功创建了两个文件夹:原创 2014-11-03 14:38:11 · 873 阅读 · 1 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(4)
7,在SparkWorker1和SparkWorker2上完成和SparkMaster同样的Hadoop 2.2.0操作,建议使用SCP命令把SparkMaster上安装和配置的Hadoop的各项内容拷贝到SparkWorker1和SparkWorker2上;8,启动并验证Hadoop分布式集群第一步:格式化hdfs文件系统:第二步:进入原创 2014-10-16 14:17:47 · 1091 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-运行Ubuntu系统(1)
为了简化权限等问题,下面我们以root用户的身份登录和使用Ubuntu系统,而Ubuntu在默认情况下并没有开启root用户,这需要我们做如下设置:sudo -s进入 root用户权限模式vim /etc/lightdm/lightdm.conf[SeatDefaults]greeter-session=unity-greeteruser-session=ubuntugr原创 2014-08-12 10:52:31 · 592 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群-配置Hadoop伪分布模式并运行Wordcount示例(1)
第四步:配置Hadoop伪分布模式并运行Wordcount示例伪分布模式主要涉及一下的配置信息:修改Hadoop的核心配置文件core-site.xml,主要是配置HDFS的地址和端口号;修改Hadoop中HDFS的配置文件hdfs-site.xml,主要是配置replication;修改Hadoop的MapReduce的配置文件mapred-site.xml,主要是配置Job原创 2014-08-25 16:08:20 · 581 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第二步)(4)
4.测试Hadoop分布式集群环境;首先在通过Master节点格式化集群的文件系统:原创 2014-09-03 11:02:25 · 709 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(3)
配置完成后保存退出并执行source命令使配置文件生效。Step 3:运行IDEA并安装和配置IDEA的Scala开发插件:官方文档指出:我们进入IDEA的bin目录:原创 2014-09-19 11:21:30 · 678 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第三步)(2)
安装Spark Master、Slave1、Slave2这三台机器上均需要安装Spark。首先在Master上安装Spark,具体步骤如下:第一步:把Master上的Spark解压:原创 2014-09-09 12:45:26 · 1202 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第三步)(3)
启动并查看集群的状况第一步:启动Hadoop集群,这个在第二讲中讲解的非常细致,在此不再赘述:启动之后在Master这台机器上使用jps命令,可以看到如下进程信息:在Slave1 和Slave2上使用jps会看到如下进程信息:第二步:启动Spark集群 在Hadoop集群成功启动的基础上,启动Spark集群需要使用Spark的sbin原创 2014-09-10 10:08:37 · 1141 阅读 · 0 评论 -
Spark教程-构建Spark集群-配置Hadoop单机模式并运行Wordcount(1)
安装sshHadoop是采用ssh进行通信的,此时我们要设置密码为空,即不需要密码登陆,这样免去每次通信时都输入秘密,安装如下:原创 2014-08-14 11:30:37 · 604 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(4)
此时重启IDEA:此时重启IDEA:原创 2014-09-22 14:31:50 · 573 阅读 · 0 评论 -
Spark教程-构建Spark集群-配置Hadoop单机模式并运行Wordcount(2)
2.安装rsync我们的Ubuntu 12.10版本默认安装了rsync,我们可以通过以下命令来安装或者更新rsync3.安装hadoop,家林把下载下来的最新稳定版本的hadoop保存在电脑本地的以下位置:原创 2014-08-15 15:08:52 · 739 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第二步)(1)
在VMWare 中准备第二、第三台运行Ubuntu系统的机器; 在VMWare中构建第二、三台运行Ubuntu的机器和构建第一台机器完全一样,再次不在赘述。。与安装第一台Ubuntu机器不同的几点是:第一点:我们把第二、三台Ubuntu机器命名为了Slave1、Slave2,如下图所示:创建完的VMware中就有三台虚拟机了:第二原创 2014-08-28 16:45:47 · 812 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(1)
那我们如何验证Spark Shell对README.md这个文件中的“Spark”出现的15次是正确的呢?其实方法很简单,我们可以使用Ubuntu自带的wc命令来统计,如下所示:发现此时的执行结果也是15次,和Spark Shell的计数是一样一样的。原创 2014-09-11 13:39:47 · 612 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(5)
此时把我们的“firstScalaApp”的源代码修改为如下内容:原创 2014-09-23 10:46:24 · 537 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(6)
点击确认后出现如下视图:原创 2014-09-24 09:49:41 · 501 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第二步)(2)
进入第二台机器,看一下这台主机的IP地址:可以看出这台主机的IP地址是“192.168.184.131”.我们在/etc/hostname中把主机名称修改为“Slave1”:原创 2014-09-01 10:15:27 · 821 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第二步)(3)
首先修改Master的core-site.xml文件,此时的文件内容是:我们把“localhost”域名修改为“Master”:原创 2014-09-02 12:03:34 · 897 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第四步)(8)
第五步:测试Spark IDE开发环境此时我们直接选择SparkPi并运行的话会出现如下错误提示:从提示中可以看出是找不到Spark程序运行的Master机器。此时需要配置SparkPi的执行环境:原创 2014-09-26 11:31:14 · 593 阅读 · 0 评论 -
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(5)
从控制台我们可以看见有两个DataNode,此时我们点击“Live Nodes”查看一下其信息:从控制台中看到了我们的两个Datanode节点SparkWorker1和SparkWorker2,这正是我们预期中的!第三步:启动yarn集群使用jps命令可以发现SparkMaster机器上启动了ResourceManager进程:而在Spa原创 2014-10-21 09:34:10 · 1244 阅读 · 0 评论