![](https://img-blog.csdnimg.cn/20190918140129601.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark篇
文章平均质量分 78
Spark是一个通用的分布式数据处理引擎。
阿布爱可乐
一只爱可乐的猫,也爱编程!
展开
-
spark初级篇之面试基础(下)
spark初级篇(下) 什么是二次排序? 根据某一刻数据进行排序,当数据相同时根据另外的列数据进行排序8 排序分为两种: 分组排序求topN, 全局排序 spark master 资源分配的方式? 尽量集中:尽量在某一台或某几台机器上启动 尽量打散:尽量让需要的资源平均的在不同的机器上启动 master的作用? Master HA 的四大方式:分別是 ZOOKEEPER,FILESYSTEM, CUSTOM, NONE; 需要说明的是: ZOOKEEPER 是自動管理 Master; F原创 2021-12-21 11:03:31 · 105 阅读 · 0 评论 -
spark初级篇
spark初级篇 什么是RDD? RDD(Resilient[弹回的有弹力的] Distributed Dataset)是一个分布式弹性数据集,是spark对数据的核心抽象 RDD的属性? ①一组分片 ②一个/每个分区的计算函数(算子)一个分区一个算子 并行计算 ③RDD的依赖关系 通过装换生成新的RDD 而原有的RDD不变 ④一个partitioner只有key value 的数据才有的partitioner默认是hash ⑤一个列表:这个列表保存的是每个partition所在的位置 rd原创 2020-10-24 09:55:15 · 69 阅读 · 0 评论 -
spark基础篇
spark基础篇 什么是spark? spark是一个用于大规模数据处理的分析引擎,是基于内存计算的大数据并行计算框架,它有快速、通用、可扩展的特点。 (并发的关键是你有处理多个任务的能力,不一定要同时。 并行的关键是你有同时处理多个任务的能力。 ) spark为什么比mapreduce快? ①spark基于内存 ②迭代计算 ③持久化 什么是迭代式计算 迭代计算就是前一次计...原创 2020-08-02 22:09:41 · 149 阅读 · 0 评论