Spark知识要点(1)

Spark简介

Spark是一个快速、通用的大规模数据并行计算平台。2009年诞生于伯克利大学AMPLab。由scala语言实现。

特点:

*性能高,内存运行时速度是HadoopMapReduce的100倍,磁盘时是其10倍;

*易用,可以用Java、Scala和Python开发。

*通用,支持交互式查询、实时流处理和批处理计算。

*兼容性好,可以运行于Hadoop、Mesos和云上。

 

核心技术

*统一的RDD抽象和操作

*基于内存的迭代式计算

*DAG

*容错机制

Spark生态圈


*集群管理系统:Standalone、Mesos和YARN

*存储系统:HDFS等分布式存储系统

*内存文件系统:Tachyon

*Spark: 实现任务调度、内存管理、故障恢复和与存储系统的交互等功能。

*Shark/Spark SQL: 提供SQL接口。

*Spark Streaming:实时流处理框架。

*GraphX:图计算框架

*Mlib:机器学习框架

Spark安装部署

Spark可以有以下几种部署方式:Local、Standalone、YARN、Mesos和Amozon EC2。

Local模式

最简单的情况

1.      下载Spark软件包

http://spark.apache.org/downloads.html

2.      解压软件包

#tar zxvf spark-xxx.tar.gz

#ln –s spark-xxx spark

3.      验证

#cd spark

#bin/spark-shell

Standalone分布式集群

1.      安装虚拟机及操作系统,分别命名为master、slave1和slave2,并配置实现虚拟机间的互通;

2.      安装Java、Scala等基础软件,并;

3.      配置节点间的无密码互访;

4.      下载安装Hadoop,并配置Hadoop为集群模式;

5.      下载安装Spark,并配置Spark为Standalone模式;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值