![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
williamccc
愿你历尽千帆,归来仍是少年
展开
-
RDD
RDD RDD(Resilient Distributed Dataset)弹性分布数据集,是Spark中最基本的数据抽象。 代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 本质上是一组分布式的 JVM 不可变对象集合,不可变决定了它是只读的,所以 RDD 在经过变换产生新的 RDD 时,原有 RDD 不会改变 可以简单的理解为RDD就是一种高级的数据抽象(数据模型)、一种高级的数据结构,是对数据的高级封装,其本质上就是一个类,一个对象,所谓的Spark编程也是围绕底原创 2020-09-23 15:10:13 · 258 阅读 · 0 评论 -
Spark基础入门
Spark基础入门 1.概述 Spark是基于内存的 分析计算引擎 ,由于分析计算效率高,用来代替MapReduce, 只计算不存储,存储仍然在HDFS上 Spark有自己的 独立资源调度器 , 因为Spar产生的时候,Yarn还没有推出 Spark框架的优势 spark基于内存,job与job之间的计算结果不落盘 spark只有shuffle过程中落盘,但不是所有任务都有shuffle spark比Hadoop快100倍 2.模式 1. local模式:仅在测试使用 我们在linux上需原创 2020-09-22 09:30:00 · 199 阅读 · 0 评论