spark基础

spark可类比于hadoop的MapReduce,性能上有更多优化,一个主要的特点就是spark是基于内存运算的,相比于MapReduce的基于磁盘,减少了IO开销,运算速度快;另一个优化是spark提供基于DAG的运算,防止数据反复落地;同时spark提供多种计算模式,满足不同需求

spark 生态系统

下图展示了spark生态系统的主要模块:
在这里插入图片描述
Mesos,hadoop YARN:底层资源调度管理器
HDFS:hadoop基于磁盘分布式文件系统;S3:亚马逊云端存储服务
Tachyon:基于内存的分布式文件系统
SparkCore:Spark应用模块的基础
SparkStreaming:满足流计算需求
StructuredStreaming:支持毫秒级流计算需求
SparkSql:满足交互查询分析需求
SparkGraphX:满足图计算需求
SparkMLlib:提供机器学习算法库

应用场景时间其他框架spark框架
批数据处理小时mapreduce,hivespark core
基于历史数据的交互查询分,秒Impala,Dremel Drillspark sql
基于实时流数据处理秒,毫秒Storm,S4spark streaming,structured streaming
基于历史数据的挖掘计算-mahoutspark mlib
基于图数据的计算-pregel,hamaspark graphx

spark 部署

spark 部署分为单机模式和集群模式
集群调度模式有三种:

standalone
YARN
mesos

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值