spark
sparkcore+sparksql+sparkstreaming
果不其燃
这个作者很懒,什么都没留下…
展开
-
Spark-调优
Spark-调优一、spark开发原则1、避免创建重复的RDD:同一份数据只创建一个RDD2、尽量复用RDD:对于多个RDD的数据有重叠或包含的情况3、对多次使用的RDD进行持久化:对RDD使用cache或persist(StorageLevel.XXXX)持久化操作,选择内存和序列化4、避免使用shuffle算子:减少相同key在节点间的网络传输,IO操作5、使用map-side预...原创 2020-04-03 21:42:24 · 102 阅读 · 0 评论 -
Spark-RDD核心抽象(第二天)
Spark-RDD核心抽象(第二天)一、RDD核心概念RDD(Resilient Distributed DataSet)弹性分布式数据集,是一种数据结构类型,不可变、可分区、里面的元素可进行并行计算的集合。弹性:指计算结果可保存在内存或磁盘中。二、RDD五大属性每一个RDD都满足这五大属性。1、分区列表是数据集的基本组成单位,一个RDD可以有多个分区(分区列表),每个分区拥有RDD...原创 2020-04-03 13:52:17 · 154 阅读 · 0 评论 -
SparkCore-核心概念和集群架构(第一天)
SparkCore-核心概念和集群架构(第一天)一、核心概念spark是基于内存的计算框架,是大规模数据处理的统一分析引擎。WebUI管理端口:8080 RPC通信接口:7077二、四大特性速度快-中间的计算结果保存在内存,减少了磁盘IO。task以线程的形式运行在进程中。易用性-可以使用scala、java、python和go多语言开发通用性-spark生态圈包括sparks...原创 2020-03-30 09:37:06 · 112 阅读 · 0 评论