跟天齐老师学Spark(3)--搭建Spark环境

本文详细介绍了如何在虚拟机上搭建Spark伪分布式环境,包括解压Spark、配置环境变量、启动Spark Shell以及理解Spark的延迟加载特性。还讨论了Spark集群的部署,包括Master和Worker节点的设置,以及如何解决单点故障问题,引入Zookeeper实现高可用性。最后,提到了如何启动集群版的Spark Shell并调整Executor的资源分配。
摘要由CSDN通过智能技术生成
搭建spark环境(伪分布式,在虚拟机上用一台机器来编写一个spark程序):Spark解压就能用。

首先spark环境,首先要按照jdk,但可以不用按照scala环境。

下载的spark最好是和hadoop版本匹配的spark版本,比如:spark-1.6.2-bin-hadoop2.6.tgz;
需要自己使用maven来编译(后面会讲)。

使用bin目录下的spark-shell,这是spark的一个客户端。可以启动一个spark的单机版。
它启动之后会创建一个SparkContext对象或实例。启动后会进入scala的命令行。

spark中的方法(或算子)是延迟加载的。他的算子有两钟,其中有一种就是延迟加载的,一旦触发Action的时候,它才会加载数据;
比如:sc.textFile("/root/words.txt")//延迟加载
它默认使用hdfs的接口来读的。
但是这个textFile方法会把key丢掉,只保留value,因为那个key没有用。
sc.textFile("/root/words.txt").collect//收集结果

sc.textFile("/root/words.txt").flatMap(_.split)
这个flatMap是spark的rdd上的一个方法,和原来scala原生的flatMap方法的实现是不一样的,但是功能都是一样的。

sc.textFile("/root/words.txt").flatMap(_.split(" ")).map(_,
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

十光年

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值