大数据-SparkStreaming（九）

最新推荐文章于 2021-10-07 11:50:45 发布

海恋北斗星

最新推荐文章于 2021-10-07 11:50:45 发布

阅读量230

点赞数

分类专栏：大数据文章标签： spark SparkStreaming

本文链接：https://blog.csdn.net/zy12306/article/details/108878922

版权

大数据专栏收录该内容

70 篇文章 8 订阅

订阅专栏

大数据-SparkStreaming（九）

SparkStreaming调优

调整BlockReceiver的数量

案例演示：

val kafkaStream = {  
  val sparkStreamingConsumerGroup = "spark-streaming-consumer-group"  
  val kafkaParams = Map(  
    "zookeeper.connect" -> "node01:2181,node02:2181,node03:2181",  
    "group.id" -> "spark-streaming-test")  
  val inputTopic = "test"  
  val numPartitionsOfInputTopic = 3  
  val streams = (1 to numPartitionsOfInputTopic) map  {x =>  
    KafkaUtils.createStream(ssc, kafkaParams, Map(inputTopic -> 1),      StorageLevel.MEMORY_ONLY_SER).map(_._2)  
  }  
  val unifiedStream = ssc.union(streams)

调整Block的数量

batchInterval : 触发批处理的时间间隔
blockInterval :将接收到的数据生成Block的时间间隔，spark.streaming.blockInterval(默认是200ms)，那么，BlockRDD的分区数 = batchInterval / blockInterval，即一个Block就是RDD的一个分区，就是一个task
比如，batchInterval是2秒，而blockInterval是200ms，那么task数为10，如果task的数量太少，比一个executor的core数还少的话，那么可以减少blockInterval，blockInterval最好不要小于50ms，太小的话导致task数太多，那么launch task的时间久多了。

调整Receiver的接受速率

pps:permits per second 每秒允许接受的数据量(QPS -> queries per second)
Spark Streaming默认的PPS是没有限制的,可以通过参数spark.streaming.receiver.maxRate来控制，默认是Long.Maxvalue

调整数据处理的并行度

BlockRDD的分区数

a. 通过Receiver接受数据的特点决定

b. 也可以自己通过repartition设置

ShuffleRDD的分区数

a. 默认的分区数为spark.default.parallelism(core的大小)

b. 通过我们自己设置决定

val wordCounts = words.map(x => (x, 1)).reduceByKey((a: Int, b: Int) => a + b, new HashPartitioner(10))

数据的序列化

SparkStreaming两种需要序列化的数据： a. 输入的数据：默认是以StorageLevel.MEMORY_AND_DISK_SER_2的形式存储在executor上的内存中 b. 缓存的数据：默认是以StorageLevel.MEMORY_ONLY_SER的形式存储的内存中使用Kryo序列化机制，比Java序列化机制性能好

val conf = new SparkConf().setMaster(...).setAppName(...)
conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2]))
val sc = new SparkContext(conf)

内存调优

需要内存大小

和transformation的类型有关，如果使用的是updateStateByKey，Window这样的算子，那么内存就要设置得偏大。

数据存储级别

如果把接收到的数据设置的存储级别是MEMORY_DISK这种级别，也就是说如果内存不够可以把数据存储到磁盘上，其实性能还是不好的，性能最好的就是所有的数据都在内存里面，所以如果在资源允许的情况下，把内存调大一点，让所有的数据都存在内存里面。

Output Operations性能

保存结果到外部的存储介质中，比如mysql/hbase数据库，使用高性能的算子操作实现。

Backpressure(压力反馈)--->背压机制

Feedback Loop : 动态使得Streaming app从unstable状态回到stable状态。

从Spark1.5版本开始：spark.streaming.backpressure.enabled = true

Elastic Scaling(资源动态分配)

动态分配资源：

批处理动态的决定这个application中需要多少个Executors：

当一个Executor空闲的时候，将这个Executor杀掉
当task太多的时候，动态的启动Executors

Streaming分配Executor的原则是比对 process time / batchInterval 的比率。

如果延迟了，那么就自动增加资源。

从Spark2.0有这个功能，开启资源动态分配： spark.streaming.dynamicAllocation.enabled = true

海恋北斗星

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据-SparkStreaming（九）

大数据-SparkStreaming（九）SparkStreaming调优调整BlockReceiver的数量案例演示：val kafkaStream = { val sparkStreamingConsumerGroup = "spark-streaming-consumer-group" val kafkaParams = Map( "zookeeper.connect" -> "node01:218...
复制链接

扫一扫

专栏目录