跟天齐老师学Spark（3）--搭建Spark环境

最新推荐文章于 2019-12-04 16:52:32 发布

十光年

最新推荐文章于 2019-12-04 16:52:32 发布

阅读量627

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/xbs1019/article/details/54898060

版权

本文详细介绍了如何在虚拟机上搭建Spark伪分布式环境，包括解压Spark、配置环境变量、启动Spark Shell以及理解Spark的延迟加载特性。还讨论了Spark集群的部署，包括Master和Worker节点的设置，以及如何解决单点故障问题，引入Zookeeper实现高可用性。最后，提到了如何启动集群版的Spark Shell并调整Executor的资源分配。

摘要由CSDN通过智能技术生成

搭建spark环境（伪分布式，在虚拟机上用一台机器来编写一个spark程序）：Spark解压就能用。

首先spark环境，首先要按照jdk，但可以不用按照scala环境。

下载的spark最好是和hadoop版本匹配的spark版本，比如：spark-1.6.2-bin-hadoop2.6.tgz;
需要自己使用maven来编译（后面会讲）。

使用bin目录下的spark-shell，这是spark的一个客户端。可以启动一个spark的单机版。
它启动之后会创建一个SparkContext对象或实例。启动后会进入scala的命令行。

spark中的方法（或算子）是延迟加载的。他的算子有两钟，其中有一种就是延迟加载的，一旦触发Action的时候，它才会加载数据；
比如：sc.textFile("/root/words.txt")//延迟加载
它默认使用hdfs的接口来读的。
但是这个textFile方法会把key丢掉，只保留value，因为那个key没有用。
sc.textFile("/root/words.txt").collect//收集结果

sc.textFile("/root/words.txt").flatMap(_.split)
这个flatMap是spark的rdd上的一个方法，和原来scala原生的flatMap方法的实现是不一样的，但是功能都是一样的。

sc.textFile("/root/words.txt").flatMap(_.split(" ")).map(_,

最低0.47元/天解锁文章

十光年

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
跟天齐老师学Spark（3）--搭建Spark环境

搭建spark环境（伪分布式，在虚拟机上用一台机器来编写一个spark程序）：Spark解压就能用。首先spark环境，首先要按照jdk，但可以不用按照scala环境。下载的spark最好是和hadoop版本匹配的spark版本，比如：spark-1.6.2-bin-hadoop2.6.tgz;需要自己使用maven来编译（后面会讲）。使用bin目录下的spark-sh
复制链接

扫一扫