初窥Spark

Hadoop

一、HDFS —— 分布式文件系统

img

二、MapReduce —— 分布式计算系统

img

h:1

h;1

h:<1,1>

h :2

img


这里写图片描述

三、Yarn —— 资源调度系统

Resource Manager 和 NodeManager

wps56E5.tmp

Spark

一、spark集群结构
RDD —— 弹性分布式数据集
rdd = sc.parallelize([1,2,3,4,5,6])
 
rdd.collect()
 
-->  [1,2,3,4,5,6]

    rows = sc.textFile('/user/hadoop/hello.txt')
 
    rows = sc.textFile('/user/hadoop/*')

RDD的计算方式(俩类算子):

1. 变换(Transformations):
特点: 懒执行,变换只是一些指令集并不会去马上执行,需要等到有Actions操作的时候才会真正的据算结果
比如: map()    flatMap()    groupByKey    reduceByKey

2. 操作(Actions):

特点: 立即执行

比如: count()    take()    collect()   top()    first()
content = sc.parallelize([1,2,3,4])
content.persist()


content.is_cached

content.unpersist()

StorageLevel.MEMORY_AND_DISK
StorageLevel.MEMORY
StorageLevel.DISK


rdd的持久化算子有三种:

1、cache:将数据持久化到内存

2、persist:可以将数据持久化到磁盘,也可以将数据持久化到内存

3、checkpoint:将数据持久化到磁盘。

persist的几个参数:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值