![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
无
zhzsdiligence
这个作者很懒,什么都没留下…
展开
-
SparkCore
1.RDD1.1 什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据(计算)抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算(分区同时计算)的集合。1.2 RDD的属性一组分区(Partition),即数据集的基本组成单位;当读取文件很大时,文件需要切片,对应每个切片就对应一个Rdd的一个分区。一个计算每个分区的函数;(每个分区都有一个计算函数) RDD之间的依赖关系;(例如word原创 2021-11-24 15:46:55 · 1207 阅读 · 0 评论 -
Spark 入门
1. 环境搭建1.1 本地模式(开箱即用)1.1.1 准备工作1.1.2 原理1.1.3 操作1.1.4 WordCount 示例1.2 Standalone 独立集群1.2.1 原理1.2.2 环境搭建与启动1.2.3 测试转载 2021-11-14 11:07:07 · 88 阅读 · 0 评论