古月皮皮-CSDN博客

原创 spark scala 编写词频统计案例

2.转换算子通过 flatMap 转换算子把文件内容拆分成一个个单词。4.通过groupByKey 算子操作文件内容中所有单词进行分组。在 home/hzb 下新建 test.txt 文件。1.从 Linux 本地文件系统加载数据创建 RDD。3.通过 Map 算子返回一个新的数据集。5.打印 wordCoount。

2023-04-25 14:05:15 430

从一个已经存在的集合，数组上，通过 SparkContext 对象调用 parallelize() 方法创建 RDD。2.创建一个数组，通过parallelize() 方法实现。1.需要在 linux 本地创建文件 test.txt。1.需要在 HDFS 上创建目录 data。2.需要从本地上传一个文件到 HDFS 上。一.从 linux 本地文件系统加载数据创建RDD。3.读取本地文件创建RDD。二.从 HDFS 加载数据创建 RDD。1.打开 spark。三.通过并行集合创建 RDD。

2023-04-25 11:21:31 829

原创 Spark 安装与配置

spark-env.sh.template 为 spark-env.sh。6.复制重命名 spark-env.sh 和 slaves。配置 Spark HA 集群需要配置zookeeper。slaves.template 为 slaves。9.启动 spark 集群，并用 jps 查看。并用 ll 查看是否有该文件。1.到该文件路径下。3.修改解压后spark 的目录名。5.到 spark/conf 目录下。7.配置 spark-env.sh。2.解压该安装包到某一目录下。一 . 下载Spark。

2023-04-19 09:04:28 401

原创 Spark 安装与配置（Spark HA 集群部署）

启动 zookeeper。一键启动启动spark。二 . 解压 Spark 安装包并改名。2.slaves 配置。一 . 下载Spark。

2023-04-18 08:52:37 1378

原创 zookeeper 安装与配置

zookeeper 官网：https://link.jianshu.com/?t=http://zookeeper.apache.org/2.准备两个文件夹data和log用来存放zookeeper的数据(data)和日志(log)目录。把 zookeeper-3.4.10.tar.gz 命名为 zookeeper。5.复制zoo_sample.cfg文件为zoo.cfg文件，并修改配置。五.启动zookeeper。node1 中输入 1。node2 中输入 2。node3 中输入 3。

2023-04-17 23:52:19 1170