大数据技术基础知识总结十一

  • 什么是 Spark
    • 定义
      • Spark 是用于大规模数据处理的通用分析引擎
    • 特色
      • Spark 的特色
        • 高速
          • Spark 使用了最新的 DAG 调度方案,查询、优化和物理执行引擎,在批处理和“流”处理上都表现优异
        • 易用
        • 通用
        • 多平台支持
          • Spark 本身是可以独立运行的,当然,它也可以运行在 Hadoop、Mesos、Kubernetes,甚至是云平台上。它还支持访问各种不同的数据源,比如 HDFS、HBase、Hive、Cassandra 都是可以的。
        • 内存化
          • MapReduce 所有的中间结果都是保存在磁盘上;
          • Spark 的中间结果是保存在内存中的。
    • Spark 基础
      • RDD
        • RDD 是 Resillient Distributed Dataset(弹性分布式数据集)的简称,它是 Spark 的一个基本数据结构,也是Spark 最核心的数据结构
      • 两种操作
        • Transformation(转换操作)
        • Action(行动操作)
      • 两种依赖关系
        • 窄依赖关系
          • 指的是生成下级 RDD 不会引起数据在不同的分区(Partition)之间进行迁移(Shuffle);
        • 宽依赖关系
          • 指的是要生成的 RDD 依赖于多个分区的数据,很明显这会导致处理速度的下降。
      • 开发时需要注意的问题
        • 数据倾斜
        • 过多地使用 Action 操作
        • 宽依赖过多
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Lw中

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值