初窥Spark

最新推荐文章于 2023-02-12 23:37:04 发布

不知如何

最新推荐文章于 2023-02-12 23:37:04 发布

阅读量128

点赞数

分类专栏：大数据文章标签：大数据 spark

本文链接：https://blog.csdn.net/weixin_44663889/article/details/112597443

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Hadoop

一、HDFS —— 分布式文件系统

二、MapReduce —— 分布式计算系统

h:1

h;1

h:<1,1>

h :2

这里写图片描述

三、Yarn —— 资源调度系统

Resource Manager 和 NodeManager

wps56E5.tmp

Spark

一、spark集群结构

RDD —— 弹性分布式数据集

rdd = sc.parallelize([1,2,3,4,5,6])
 
rdd.collect()
 
-->  [1,2,3,4,5,6]

    rows = sc.textFile('/user/hadoop/hello.txt')
 
    rows = sc.textFile('/user/hadoop/*')

RDD的计算方式(俩类算子):

1. 变换(Transformations):
特点: 懒执行,变换只是一些指令集并不会去马上执行,需要等到有Actions操作的时候才会真正的据算结果
比如: map()    flatMap()    groupByKey    reduceByKey

2. 操作(Actions):

特点: 立即执行

比如: count()    take()    collect()   top()    first()

content = sc.parallelize([1,2,3,4])
content.persist()


content.is_cached

content.unpersist()

StorageLevel.MEMORY_AND_DISK
StorageLevel.MEMORY
StorageLevel.DISK

rdd的持久化算子有三种：

1、cache:将数据持久化到内存

2、persist：可以将数据持久化到磁盘，也可以将数据持久化到内存

3、checkpoint：将数据持久化到磁盘。

persist的几个参数：

不知如何

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
初窥Spark

Hadoop一、HDFS —— 分布式文件系统二、MapReduce —— 分布式计算系统h:1h;1h:<1,1>h :2三、Yarn —— 资源调度系统Resource Manager 和 NodeManagerSpark一、spark集群结构RDD —— 弹性分布式数据集rdd = sc.parallelize([1,2,3,4,5,6]) rdd.collect() --> [1,2,3,4,5,6] rows = sc.te
复制链接

扫一扫