- 博客(13)
- 收藏
- 关注
原创 spark scala 编写 词频统计案例
2.转换算子 通过 flatMap 转换算子 把文件内容拆分成一个个单词。4.通过groupByKey 算子操作文件内容中所有单词进行分组。在 home/hzb 下 新建 test.txt 文件。1.从 Linux 本地文件系统加载数据创建 RDD。3.通过 Map 算子 返回一个新的数据集。5.打印 wordCoount。
2023-04-25 14:05:15 430
原创 RDD 三种创建方式
从一个已经存在的集合,数组上,通过 SparkContext 对象调用 parallelize() 方法创建 RDD。2.创建一个数组,通过parallelize() 方法实现。1.需要在 linux 本地创建 文件 test.txt。1.需要在 HDFS 上创建目录 data。2.需要从本地上传一个文件到 HDFS 上。一.从 linux 本地文件系统加载数据创建RDD。3.读取本地文件创建RDD。二.从 HDFS 加载数据创建 RDD。1.打开 spark。三.通过并行集合创建 RDD。
2023-04-25 11:21:31 829
原创 Spark 安装与配置
spark-env.sh.template 为 spark-env.sh。6.复制重命名 spark-env.sh 和 slaves。配置 Spark HA 集群 需要配置zookeeper。slaves.template 为 slaves。9.启动 spark 集群,并用 jps 查看。并用 ll 查看是否有该文件。1.到 该文件路径下。3.修改解压后spark 的目录名。5.到 spark/conf 目录下。7.配置 spark-env.sh。2.解压该安装包到某一目录下。一 . 下载Spark。
2023-04-19 09:04:28 401
原创 Spark 安装与配置 (Spark HA 集群部署)
启动 zookeeper。一键启动启动spark。二 . 解压 Spark 安装包并改名。2.slaves 配置。一 . 下载Spark。
2023-04-18 08:52:37 1378
原创 zookeeper 安装与配置
zookeeper 官网:https://link.jianshu.com/?t=http://zookeeper.apache.org/2.准备两个文件夹data和log用来存放zookeeper的数据(data)和日志(log)目录。把 zookeeper-3.4.10.tar.gz 命名为 zookeeper。5.复制zoo_sample.cfg文件为zoo.cfg文件,并修改配置。五.启动zookeeper。node1 中 输入 1。node2 中 输入 2。node3 中 输入 3。
2023-04-17 23:52:19 1170
原创 线程方法--插入线程/插队线程
当前线程 : 在 join 下的第一个线程 : main。public final void join() 插入线程/插队线程。表示 把 t1 这个线程,插入到当前线程之前。引入其它线程,并且先执行该线程。
2023-04-14 11:35:50 84
原创 线程方法 -- 礼让线程
public static void yield() //礼让线程。线程的礼让是指先将资源让出去让别的线程先执行。只是相对抢占cpu 执行。
2023-04-14 11:04:42 88 1
原创 线程方法--守护线程
守护线程:守护线程也被称之为后台线程、服务线程或精灵线程,守护线程是为用户线程服务的,当线程中的用户线程都执行结束后,守护线程也会跟随结束。当 线程二 运行完毕后 线程一运行一段时间后结束。
2023-04-14 09:35:16 57 1
原创 linux ubuntu 配置
sudo apt install ssh //下载 ssh。sudo systemctl status sshd //查看 sshd是否启动。vim /etc/hosts //配置。vim /etc/hostname //修改主机名。vim /etc/ssh/ssh_config //免密配置。
2023-04-13 15:05:59 92
原创 多进程 创建
多线程实现方法:1. 继承 Thread类 的方式进行实现2. 实现 Runable 接口的方式进行实现3. 利用 callable 接口和Future接口方式实现
2023-04-13 11:53:56 195 3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人