Spark RDD五大特征

在这里插入图片描述
1.Rdd由一组分区组成 (partition) 默认是一个block 对应一个分区
2.每个分区都有一个 Task 来处理 ,函数实际上 是作用在每一个分区上的
3.RDD 直接由一系列的依赖关系 宽依赖 与窄 依赖
宽依赖 存在 shuffle 算子分区对应的关系 是一对多 关系 窄依赖 没有 shuffle 算子 分区对应一对一关系
根据宽窄依赖切分 Stage , Stage 是一组并行计算的 task
4.分区类算子都会作用在 key value 的 RDD 上
5.spark为 task 提供了 最佳 运算位置 ,尽量将 task 发送到 数据所在的 executor 上,移动计算 不是 移动数据 (taskScheduler 知道 数据的位置 ,Task 由 TaskScheduler 来传送到对应的 executor 中 执行)

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值