Spark--理论知识详解 (外加PySpark的应用)
1.初识Spark
1.1 Spark(基础原理知识)
Spark是一个开源的,强大的分布式查询和处理引擎,他提供MapReduce的灵活性和扩展性(不以Mapreduce的数据处理框架),当数据存储在内存中时,他比Apache Hadoop快100倍,访问磁盘时高达10倍
他支持高级API有:
1.Scala
2.Java
3.Ptyhon
4.R
而今天我们就要了解Pyspark的运用
...
原创
2019-11-01 14:40:26 ·
195 阅读 ·
0 评论