![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
sparkcore+sparksql+sparkstreaming
果不其燃
这个作者很懒,什么都没留下…
展开
-
Spark-调优
Spark-调优 一、spark开发原则 1、避免创建重复的RDD:同一份数据只创建一个RDD 2、尽量复用RDD:对于多个RDD的数据有重叠或包含的情况 3、对多次使用的RDD进行持久化:对RDD使用cache或persist(StorageLevel.XXXX)持久化操作,选择内存和序列化 4、避免使用shuffle算子:减少相同key在节点间的网络传输,IO操作 5、使用map-side预...原创 2020-04-03 21:42:24 · 106 阅读 · 0 评论 -
Spark-RDD核心抽象(第二天)
Spark-RDD核心抽象(第二天) 一、RDD核心概念 RDD(Resilient Distributed DataSet)弹性分布式数据集,是一种数据结构类型,不可变、可分区、里面的元素可进行并行计算的集合。 弹性:指计算结果可保存在内存或磁盘中。 二、RDD五大属性 每一个RDD都满足这五大属性。 1、分区列表是数据集的基本组成单位,一个RDD可以有多个分区(分区列表),每个分区拥有RDD...原创 2020-04-03 13:52:17 · 159 阅读 · 0 评论 -
SparkCore-核心概念和集群架构(第一天)
SparkCore-核心概念和集群架构(第一天) 一、核心概念 spark是基于内存的计算框架,是大规模数据处理的统一分析引擎。 WebUI管理端口:8080 RPC通信接口:7077 二、四大特性 速度快-中间的计算结果保存在内存,减少了磁盘IO。task以线程的形式运行在进程中。 易用性-可以使用scala、java、python和go多语言开发 通用性-spark生态圈包括sparks...原创 2020-03-30 09:37:06 · 121 阅读 · 0 评论