参考《Python+Spark 2.0+Hadoop机器学习与大数据实战_林大贵(著) 清华大学出版社》
1、Spark
(1)大数据运算平台spark的应用
- Spark Streaming 数据流处理
- Spark SQL 互动分析
- MLlib 机器学习
Spark的核心是RDD弹性分布式数据集,可以导入HDFS、HBase、Hadoop的数据源
(2)Spark特色
(3)主要功能:
(4)spark处理数据方式
RDD、DataFrame、SparkSQL(难度RDD>DataFrame>SparkSQL)
使用RDD必须有Map/Reduce的概念
DataFrame与SparkSQL使用速度比RDD快
(5)使用python优势
代码简单、高生产力、面向对象和函数式动态语言、数据分析模块(Numpy、Matplotlib、Pandas