spark

最新推荐文章于 2024-03-30 09:03:24 发布

周小西zxx

最新推荐文章于 2024-03-30 09:03:24 发布

阅读量118

点赞数

分类专栏： spark 大数据文章标签： spark 大数据

本文链接：https://blog.csdn.net/zhouben12/article/details/108327032

版权

大数据同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

spark

1 篇文章 0 订阅

订阅专栏

文章目录

概述

离线批处理+实时流处理

spark为什么比hadoop快？

hadoop的shuffle产生大量的磁盘IO影响了效率。
spark在内存中操作，尽量避免数据落盘操作（窄依赖不进行shuffle)

sh spark-shell --master=local（单机模式）
sh spark-shell.sh --master spark://192.168.1.100:7077（集群启动）
在这里插入图片描述

RDD

我将RDD理解成一个有分区的集合

创建RDD

val data = Array(1,2,3,4,5)
val rdd1 = sc.parallelize(data, 3)

val rdd1 = sc.makeRDD(data)

文件中创建RDD，一行一个数据
注意：在集群中操作文件，需要每个集群都有一份文件，所以浪费资源

val rdd2  = sc.textFile("/home/data.txt")

可以改用hdfs存储数据

注：可以在spark-env.sh 中配置选项 HADOOP_CONF_DIR 配置为hadoop的etc/hadoop的地址使默认访问的是hdfs的路径

注：如果修改默认地址是hdfs地址则如果想要访问文件系统中的文件需要指明协议为file 例如 sc.text(“file:///xxx/xx”)

val  rdd2 = sc.textFile("hadoop01:9000/1.txt")

rdd2.collect

collect生产环境慎用，会把所有分区数据归纳计算，造成内存溢出。

在这里插入图片描述

Transformation – 变换–懒操作

不真正触发RDD,只有action才触发

map
flatmap
fliter
mapPartitons
groupByKey

Actions - 执行

collect
count
reduce
foreach

单词统计计算

val r1 = sc.textFile("/home/1.txt")
				.flatmap(line=>line.split(" "))
							.map((_,1))
							.reduceByKey(_+_)
							.saveAsTextFile("home/result")

在这里插入图片描述

宽依赖和窄依赖

窄依赖不造成shuffle，效率非常高，在DAG中会将多窄依赖操作合并处理
在这里插入图片描述

shuffle操作是将数据汇总整理，数据大所以可能将数据落入磁盘操作。
spark不是完全的内存操作，而且尽量避免磁盘操作

DAG

有向无环链
记录RDD依赖关系，数据丢失后恢复（体现了RDD的容错性）

Stage

遇到action方法时，会触发计算，向前回溯
遇到宽依赖为止，将中间过程组成一个stage
DAG被分成多个stage
因为宽依赖要shuffle不能优化
一个action对应一个job
一个Task处理一个分区
在这里插入图片描述

Spark Shuffle

Hash Base Shuffle和Sort Based Shuffle

hash会产生很多临时文件，打开这些临时文件，占用内存。
在这里插入图片描述
sort Based Shuffle的Map Task会按照key对应的Partition ID进行sort, 相同ID不会sort, 因为对于不需要sort的操作来说，这是负收益。
hadoop Map Reduce就是对所有计算都会sort

还是要根据实际场景判断使用 sort还是Hash, 若产生的shuffle文件数量不多且不需要排序，hash的效率会更高。

RDD缓存

将频繁使用的RDD存入缓存

r1.cache 只有一种缓存级别：MEMORY_ONLY
或
import org.apache.spark.storage._
r1.persist(StorageLevel.MEMORY_ONLY)
-----
r1.unpersist()清除缓存

Checkpoint

设置检查点，将数据存到一个高可用的地方，放置数据的内存或者磁盘丢失

val sc=new SparkContext(conf)
sc.setCheckpointDir("hdfs://hadoop01:9000/check01")

r1.cache()
r1.checkpoint()

Spark调度

周小西zxx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录