01_Spark

什么是spark

spark是一个实现快速通用的集群计算平台

spark组成

  1. SparkCore:将分布式数据抽象为弹性分布式数据集(RDD),为运行在其上的上层组件提供API。
  2. SparkSQL:可以让我使用SQL语句的方式来查询数据
  3. SparkStreaming: 是Spark提供的实时数据进行流式计算的组件。
  4. MLlib:提供常用机器学习算法的实现库。
  5. GraphX:提供一个分布式图计算框架,能高效进行图计算。
  6. BlinkDB:用于在海量数据上进行交互式SQL的近似查询引擎。
  7. Tachyon:以内存为中心高容错的的分布式文件系统。

下载Spark

spark官网:http://spark.apache.org/downloads.html
清华镜像:https://mirrors.tuna.tsinghua.edu.cn/apache/

环境准备

  1. Java8安装成功
  2. zookeeper安装成功
  3. hadoop2.7.5 HA安装成功
  4. Scala安装成功(不安装进程也可以启动

安装(略,建议百度)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值