1. Spark结构图
(1)Spark Sql 关系型数据分析
(2) Spark Streaming --数据流
(3) GraphX —图计算
2. 生态系统
Mapreduce缺点:
1)表达能力不足
2)IO开销大,基于磁盘完成。
3)延迟比较高,Map与Reduce衔接过程,等所有Map都完成。
4)迭代算法缺点明显。
Spark优点:
1)多住数据集操作类型
2)变成模型更灵活
3)提供内存计算,提高计算速度
4)基于DAG任务调度执行机制
4. spark与mapreduce对等,不会取代Hadoop
spark 使计算框架,不是存储框架。
HDFS, HBase 通过Spark框架进行计算。组合部署使用。
- Spark开发用什么语言
Scala, Python, java
java先编译后执行,Scala交互性语言。
Pyhton最大缺点,并发性不好。
首选Scala ,跟Spark浑然一体。
7. Scala语言基础
1) 函数变成, 充分利用并发处理。