![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
augie_ly
冰冻三尺非一日之寒
展开
-
storm和sparkStreaming的对比?
(1)如果需要毫秒级的响应,选择storm,其他所有的方面选择spark Streaming。 (2)Storm是一条一条处理的。处理的是新增的某一笔数据。spark Streaming是按照批次处理的,也就是按时间段进行处理的,与内容无关。 (3)Spark Streaming也是可以一条一条进行处理,需要一个机制,一般是利用kafka。数据来自不同的终端,推送给Kafka,kafka是最好的消息中间件,是一个集群,可以处理任意规模的数据,spark Streaming会从kafka中获取数据,进行处理。原创 2020-10-27 20:13:08 · 240 阅读 · 0 评论 -
Spark性能优化一篇就够了
一,Spark性能优化:开发调优 1.避免创建重复的RDD 对于同一份数据,只应该创建一个RDD,不能创建多个RDD来代表同一份数据。否则Spark作业会进行多次重复计算多个代表相同数据的RDD,进而增加了作业的性能开销。 2.尽可能复用同一个RDD 对于多个RDD的数据有重叠或者包含的情况,我们应该尽量复用一个RDD,这样可以尽可能地减少RDD的数量,从而尽可能减少算子执行的次数。 3.对多次使用的RDD进行持久化或chickPoint 每次你对一个RDD执行一个算子操作时,都会重新从源头处计算一遍,计算原创 2020-10-24 18:47:31 · 768 阅读 · 0 评论 -
spark序列化?
序列化的作用是将对象或者其他数据结构转换成二进制流,便于传输,后续再使用反序列化将其还原。因为二进制流是最便于网络传输的数据格式。 序列化对于提高分布式程序的性能起到非常重要的作用。一个不好的序列化方式(如序列化模式的速度非常慢或者序列化结果非常大)会极大降低计算速度。很多情况下,这是你优化Spark应用的第一选择。Spark试图在方便和性能之间获取一个平衡。Spark提供了两个序列化类库: Java 序列化:在默认情况下,Spark采用Java的ObjectOutputStream序列化一个对象。该方式适原创 2020-10-24 09:26:47 · 504 阅读 · 1 评论