Spack基础

最新推荐文章于 2023-10-28 10:54:59 发布

vitorl_Ch

最新推荐文章于 2023-10-28 10:54:59 发布

阅读量3.3k

点赞数

分类专栏：基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45116848/article/details/103728037

版权

Spark

1.简介

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，
因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法

2.RDD

弹性分布式数据集
RDD的五大特性
- RDD是由一系列的partition组成
- 函数是作用在partition上
- DRR之间存在一系列依赖
- 分区器是作用在K,V格式的RDD上
- RDD提供一系列最佳的计算位置
RDD理解图

在这里插入图片描述

注意要点
- textfile方法底层封装的是MR方法,读取文件前先sqilt,默认sqilt是一个block大小
- 什么是k,v格式的RDD
  - RDD里面存储的数据都是k,v数据,那么计算K.V格式的RDD
- 哪里体现了RDD的容错
  - partition的数量,大小是没有限制的,可以人为设置
  - RDD之间存在依赖关系.可以基于上一个RDD计算出下一个
- 哪里体现了RDD的分布式
  - RDD是由partition组成,每一个partition分布在不同节点上
- RDD提供了最佳的计算位置,体现了数据本地化.
每一个进行RDD计算都可以看做是一种优化

在这里插入图片描述

spack任务的执行原理图

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spack基础

Spack1.简介Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法2.RDD弹性分布式数据集RDD的五大特性RDD是...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。