Spark概述

Apache Spark是一个用于大数据处理的内存计算引擎,提供分布式内存抽象RDD,并支持多种编程语言。相较于Hadoop MapReduce,Spark速度更快,具有内存计算、DAG执行引擎和丰富的API等特点。Spark可以运行在Hadoop、Mesos、Standalone和Kubernetes等平台上,由Master、Worker、Driver和Executor等角色构成其架构。
摘要由CSDN通过智能技术生成

Spark概述

1.what is spark?

  • 定义:

    • Apache Spark 是用于大数据规模处理的统一分析引擎
    • Spark的核心数据结构是以RDD一种分布式内存抽象,使得程序员能够在大规模数据集群中做内存计算,并且有一定的容错方式
    • Spark借鉴了MapReduce思想发展而来的,保留了其分布式计算的优点并改进了其明显的缺陷,让数据存储在内存中提高了运行速度,并且提供了丰富的操作数据的API提高了开发速度
    • Spark可以计算结构化、半结构化、非结构化、等各种类型的数据结构,同时也支持使用python、Java、Scala、R以及SQL语言去开发应用程序计算数据

在这里插入图片描述

  • Spark VS Hadoop(MapReduce)

    • 区别在这里插入图片描述

    • 尽管Spark相对于Hadoop而言具有较大优势,但Spark并不能完全代替Hadoop

      • 在计算层面,Spark相比较MapReduce有巨大的性能优势,但至今仍有许多计算工具基于MapReduce框架,比如Hive
      • Spark仅做计算,而H
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值