内存计算spark——学习笔记

Spark是什么:Spark is a unified analytics engine for large-scale data processing.Spark是一个大规模的数据统一分析引擎

Spark的核心(Spark core)是RDD(分布式弹性数据集)

了解分区的概念(Spark的分区概述图的描述):

HDFS Input Splits(逻辑分区和物理分区,物理分区是每块默认128M),数据通过管道读入内存就成了RDD,经过运算(数据转换)又形成新的RDD,经过shuffle又返回原来状态了(又变成了原来的4个分区状态)如果一个大文件被分成9个块(物理分区),那么每个块对应一个task,即物理分区和task是一一匹配的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值