spark

概述

离线批处理+实时流处理


spark为什么比hadoop快?

hadoop的shuffle产生大量的磁盘IO影响了效率。
spark在内存中操作,尽量避免数据落盘操作(窄依赖不进行shuffle)


sh spark-shell --master=local(单机模式)
sh spark-shell.sh --master spark://192.168.1.100:7077(集群启动)
在这里插入图片描述


RDD

我将RDD理解成一个有分区的集合

创建RDD

val data = Array(1,2,3,4,5)
val rdd1 = sc.parallelize(data, 3)
val rdd1 = sc.makeRDD(data)

文件中创建RDD,一行一个数据
注意:在集群中操作文件,需要每个集群都有一份文件,所以浪费资源

val rdd2  = sc.textFile("/home/data.txt")

可以改用hdfs存储数据

注:可以在spark-env.sh 中配置选项 HADOOP_CONF_DIR 配置为hadoop的etc/hadoop的地址 使默认访问的是hdfs的路径

注:如果修改默认地址是hdfs地址 则如果想要访问文件系统中的文件 需要指明协议为file 例如 sc.text(“file:///xxx/xx”)

val  rdd2 = sc.textFile("hadoop01:9000/1.txt")
rdd2.collect

collect生产环境慎用,会把所有分区数据归纳计算,造成内存溢出。

在这里插入图片描述


Transformation – 变换–懒操作

不真正触发RDD,只有action才触发

map
flatmap
fliter
mapPartitons
groupByKey


Actions - 执行

collect
count
reduce
foreach


单词统计计算

val r1 = sc.textFile("/home/1.txt")
				.flatmap(line=>line.split(" "))
							.map((_,1))
							.reduceByKey(_+_)
							.saveAsTextFile("home/result")

在这里插入图片描述

在这里插入图片描述


宽依赖和窄依赖

窄依赖不造成shuffle,效率非常高,在DAG中会将多窄依赖操作合并处理
在这里插入图片描述
在这里插入图片描述

shuffle操作是将数据汇总整理,数据大所以可能将数据落入磁盘操作。
spark不是完全的内存操作,而且尽量避免磁盘操作


DAG

有向无环链
记录RDD依赖关系,数据丢失后恢复(体现了RDD的容错性

Stage

遇到action方法时,会触发计算,向前回溯
遇到宽依赖为止,将中间过程组成一个stage
DAG被分成多个stage
因为宽依赖要shuffle不能优化
一个action对应一个job
一个Task处理一个分区
在这里插入图片描述


Spark Shuffle

Hash Base Shuffle和Sort Based Shuffle

hash会产生很多临时文件,打开这些临时文件,占用内存。
在这里插入图片描述
sort Based Shuffle的Map Task会按照key对应的Partition ID进行sort, 相同ID不会sort, 因为对于不需要sort的操作来说,这是负收益。
hadoop Map Reduce就是对所有计算都会sort

还是要根据实际场景判断使用 sort还是Hash, 若产生的shuffle文件数量不多且不需要排序,hash的效率会更高。


RDD缓存

将频繁使用的RDD存入缓存

r1.cache 只有一种缓存级别:MEMORY_ONLY
或
import org.apache.spark.storage._
r1.persist(StorageLevel.MEMORY_ONLY)
-----
r1.unpersist()清除缓存

Checkpoint

设置检查点,将数据存到一个高可用的地方,放置数据的内存或者磁盘丢失

val sc=new SparkContext(conf)
sc.setCheckpointDir("hdfs://hadoop01:9000/check01")

r1.cache()
r1.checkpoint()

Spark调度

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值