Spack基础

Spark

1.简介

  • Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎
  • Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,
  • 因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法

2.RDD

  • 弹性分布式数据集
  • RDD的五大特性
    • RDD是由一系列的partition组成
    • 函数是作用在partition上
    • DRR之间存在一系列依赖
    • 分区器是作用在K,V格式的RDD上
    • RDD提供一系列最佳的计算位置
  • RDD理解图

在这里插入图片描述

  • 注意要点
    • textfile方法底层封装的是MR方法,读取文件前先sqilt,默认sqilt是一个block大小
    • 什么是k,v格式的RDD
      • RDD里面存储的数据都是k,v数据,那么计算K.V格式的RDD
    • 哪里体现了RDD的容错
      • partition的数量,大小是没有限制的,可以人为设置
      • RDD之间存在依赖关系.可以基于上一个RDD计算出下一个
    • 哪里体现了RDD的分布式
      • RDD是由partition组成,每一个partition分布在不同节点上
    • RDD提供了最佳的计算位置,体现了数据本地化.
  • 每一个进行RDD计算都可以看做是一种优化

在这里插入图片描述

  • spack任务的执行原理图

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值