初窥Spark
Hadoop
一、HDFS —— 分布式文件系统
二、MapReduce —— 分布式计算系统
h:1
h;1
h:<1,1>
h :2
三、Yarn —— 资源调度系统
Resource Manager 和 NodeManager
Spark
一、spark集群结构
RDD —— 弹性分布式数据集
rdd = sc.parallelize([1,2,3,4,5,6])
rdd.collect()
--> [1,2,3,4,5,6]
rows = sc.te
原创
2021-01-13 23:53:44 ·
124 阅读 ·
0 评论