Spark 入门环境部署以及参考知识

最新推荐文章于 2024-08-12 03:50:05 发布

Mr_天先生

最新推荐文章于 2024-08-12 03:50:05 发布

阅读量1.4k

点赞数 1

分类专栏： JVM 文章标签： spark big data scala

本文链接：https://blog.csdn.net/zyt947016438/article/details/121036520

版权

本文介绍了Apache Spark的快速入门，包括Spark作为大规模数据处理引擎的特点，特别是其内存计算的优势。文章详细讲解了Spark环境的部署，涉及Scala和Spark的安装配置，以及基于Hadoop的环境设置。此外，还探讨了Spark中的核心概念RDD，转换算子和行动算子，并通过实例展示了简单的Spark编程，如数据统计和词频分析。最后，文章提供了一些关于Scala编程的基础知识和Spark中Broadcast变量的使用，适合初学者参考。

摘要由CSDN通过智能技术生成

什么是spark？

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。

Spark是基于内存计算的通用大规模数据处理框架。

Spark快的原因：

1.Spark基于内存，尽可能的减少了中间结果写入磁盘和不必要的sort、shuffle(sort:顾名思义就是排序，shuffle:言简意赅就是将数据打散之后再重新聚合的过程,比如groupBy、reduceBykey等)
2.Spark对于反复用到的数据进行了缓存
3.Spark对于DAG进行了高度的优化，具体在于Spark划分了不同的stage和使用了延迟计算技术
spark基于JVM，底层语言用scala编写，java也可以，不过scala最适合，正是由于这个特性，所以在一些方法的用法上和java极度相似(语法略有不同)
spark计算引擎中的核心：SparkCore也就是核心，RDD：弹性数据分布集
   在计算上有两种算子：即转换算子(Transformation )和行动算子(Action)
       1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。

　　　　　Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。

2）Action 行动算子：这类算子会触发 SparkContext 提交 Job 作业。

　　　　Action 算子会触发 Spark 提交作业（Job），并将数据输出 Spark系统。