华为云耀云服务器L实例-Spark的配置-中上

本文链接：https://blog.csdn.net/xiaojinyuya/article/details/135325719

今天我们采用可靠更安全、智能不卡顿、价优随心用、上手更简单、管理特省心的华为云耀云服务器L实例为例，继续教程的介绍。

Apache Spark 是一个快速、通用的大数据处理引擎，旨在提供简单、高效、通用的数据处理平台。Spark 提供了一种基于内存的计算模型，支持复杂的数据处理任务，包括批处理、交互式查询、流处理和机器学习。

以下是 Apache Spark 的主要特点和组件：

1. 快速性能： Spark 使用内存计算和弹性分布式数据集（Resilient Distributed Dataset，简称 RDD）来提供高性能的数据处理。它支持迭代计算，适用于需要多次迭代的机器学习算法。

2. 通用性： Spark 提供了统一的数据处理平台，支持多种数据处理任务，包括批处理（Spark Core）、交互式查询（Spark SQL）、流处理（Spark Streaming）和机器学习（MLlib）。

3. 易用性： Spark 提供了丰富的 API，包括 Scala、Java、Python 和 R，使开发者能够使用自己熟悉的编程语言进行大数据处理。它还提供了交互式的 shell 界面（Spark Shell）用于实时测试和调试。

4. 弹性分布式数据集（RDD）： RDD 是 Spark 中的核心抽象，代表了可并行操作的不可变分布式集合。RDD 具有容错性，如果节点发生故障，可以重新计算丢失的数据。

5. Spark生态系统： Spark 生态系统包括许多附加组件，如 Spark SQL（用于结构化数据处理）、Spark Streaming（用于实时数据处理）、MLlib（用于机器学习）、GraphX（用于图处理）等，丰富了 Spark 的功能。

6. 分布式调度器： Spark 使用自己的分布式调度器，称为 Standalone 调度器，也可以与其他调度器集成，如 Apache Mesos、Hadoop YARN。

7. 开源社区： Spark 是一个开源项目，拥有庞大的用户社区和活跃的开发者社区，不断推动 Spark 的发展和改进。

Apache Spark 在大规模数据处理、机器学习和图计算等方面都取得了显著的成功，成为大数据处理领域的主要工具之一。其灵活性、性能和丰富的功能使得它适用于各种大数据处理场景。

以下是在华为云耀云服务器L实例上配置完毕Java环境后，继续配置spark，请注意，这里提供的步骤是基于Spark 2.12.8版本，你可以根据实际情况修改版本号。

Spark 的底层是使用 scala 脚本语言开发，对 scala的支持最好。初期学习 spark 可以直接利用 java 或 python 语言的基础就可以实现开发 spark 的目的。但是如果长期学习使用spark，建议使用 scala 脚本语言，scala 代码更加简练，开发效率更高。

cp /home/yhadoop/Desktop/scala-2.12.8.tgz /home/yhadoop tar -xzvf/scala-2.12.8.tgz

解压后为了方便起见，将解压的文件夹改为 scala。

[root@主机名]$ vi /etc/profile

添加如下内容并保存：

使配置文件生效；[root@主机名]$ source /etc/profile

测试 scala 配置是否生效，[root@主机名]$ scala–version

3、下载并解压 spark（Apache Spark™ - Unified Engine for large-scale data analytics），选用当前最新版本，如 spark-2.4.0-bin- hadoop2.7.tgz，以下采用 Z 代替。

Spark 是通用的基于内存计算的大数据框架，可以和 hadoop 生态系统很好的兼容，可以

独立安装使用，也可以和 Hadoop 一起安装使用。

[yhadoop@主机名]$ tar –xzvf spark-Z-bin-hadoop1.tgz

解压后文件夹重命名为spark

进入到 spark 的conf 目录下，执行以下命令：

[yhadoop@主机名 conf]$ cp spark-env.sh.template spark-env.sh [yhadoop@主机名 conf]$ vi spark-env.sh

添加如下内容：

export SCALA_HOME=/home/Hadoop/scala

export SPARK_MASTER_IP=node1

export SPARK_WORKER_MEMORY=4G

export JAVA_HOME=/export/server/jdk

export SPARK_HOME=/home/Hadoop/spark

进入 spark 目录，启动 spark。

sbin/start-master.sh

可以通过 http://node1:8080 看到对应界面。

本次记录中，我们在华为云耀云服务器L实例上完成了Spark配置，这是绝大多数大数据基础服务在云服务器上运行的基础。接下来，我们将用具体的例子来时间spark的运行操作。