中长跑路上crush-CSDN博客

update 支持聚合，支持select单纯的查询不支持聚合后排序，每次输出时，只展示最新聚合后的结果。#complete 必须聚合，支持聚合后排序每次输出数据都会将原来的数据一起输出。#append 不支持排序，不支持聚合，每次输出数据都是最新的数据内容。#format指定输出位置 console：控制台。也就是说不支持聚合结果输出到文件当中。

2024-01-19 21:41:53 446

df_json = ss.readStream.json(‘hdfs://node1:8020/目录’)df_csv = ss.readStream.csv(‘hdfs://node1:8020/目录’)场景：某天你上传一个文件，发现它不做任何读取和处理，你需要考虑，这个文件名以前是否处理过了。文件的读取方式在实际开发中用的比较少，每生产一条数据，就要生成一个文件（你修改了文件一的内容，不修改文件名，你再次上传会发现它不去读取。但是你不修改文件内容，修改文件名，你再上传会发现它还会去读取。

2024-01-19 17:21:46 526

原创 Linux基础命令（超详细）

home目录就是家目录,每个用户都有自己不同的家目录,两个不同的用户不能共用一个家目录。注意: 超级管理员用户有且只有一个,拥有最高权限(能自毁)当我们进入linux系统时,系统会默认加载到。超级管理员用户的家目录 : /root。普通用户的家目录: /home/用户名。命令: 告诉我们要做什么事。查询当前工作目录的绝对路径。

2024-01-18 15:19:06 492

原创 spark-udf函数

from pyspark.sql import SparkSessionfrom pyspark.sql.types import *ss = SparkSession.builder.getOrCreate()df_csv = ss.read.csv(‘hdfs://node1:8020/user/hive/warehouse/data/stu.csv’,schema=‘name string,age int,gender string,phone string,email string,city s

2024-01-17 15:56:18 1077

原创连接超时的问题

需要注释掉一个#192.168.xx.161 node1。windows上Hosts文件域名解析有问题。两个都解析成node1。

2024-01-16 16:40:16 429

原创 Kafka详解

英文名：Message Queue，经常缩写为MQ。从字面上来理解，消息队列是用来存储传递消息的。

2024-01-16 08:22:04 623

原创 SparkSQL和Hive语法差异

rand()nullvoidCTAS建表。

2024-01-15 09:23:55 1296

原创 Linux重点

Linux命令的组成？a. 命令本身，选项，参数。查看的两个操作a. cat 适合小文件b. more分页查询适合中文件创建文件的选项有啥？创建文件的小技巧a. 选项有-pb. 不管是否创建创建递进的文件，先给-p加上，加上不会报错复制文件的选项有啥？复制文件的小技巧，复制文件能重命名吗？给个案例a. -r，注意这里很容易和-p混淆b. 同上，复制文件不管三七二十一加上-rc. cp /code/1.txt /mode/2.txt移动文件有选项吗？移动能重命名吗？给个案例a.

2024-01-14 17:42:31 443

原创 Kafka

多个broker会选取产生一个控制器，类似zk中 leader角色。kafka集群运行后，每台服务器上的kafka称为一个broker节点。分区（分片） Partition。副本 Replication。处理消费者和生成者的请求。偏移量(offset)

2024-01-14 17:39:34 545

原创 Spark-RDD的依赖

服务启动： /export/server/spark/sbin/start-history-server.sh。程序运行期间查看 4040端口交互式开发。程序运行结束后查看 18080端口。Spark中有DAG管理依赖关系。日志查看依赖关系和计算流程。rdd之间是有依赖关系。

2024-01-13 08:56:16 481

原创 SPARK--cache(缓存)和checkpoint检查点机制

也是将中间rdd数据存储起来，但是存储的位置实时分布式存储系统，可以进行永久保存，程序结束不会释放。缓存是将数据存储在内存或者磁盘上，缓存的特点时，计算结束，缓存自动清空。如果需要删除就在hdfs上删除对应的目录文件。

2024-01-13 07:48:29 579

原创 Spark算子（RDD）超细致讲解

map,flatmap,sortBykey, reduceBykey,groupBykey,Mapvalues,filter,distinct,sortBy,groupBy共10个转换算子。

2024-01-12 15:54:32 1308

原创 Spark-RDD详解

rdd中封装了各种算子方便进行计算，主要分为两类转化算子对rdd数据进行转化计算得到新的rdd，定义了一个线程任务action执行算子触发计算任务，让计算任务进行执行，得到结果触发线程执行的。

2024-01-12 09:40:49 1734

原创 Spark基础

建库一定要指定字符集，错了好多次了。

2024-01-11 15:28:22 610

原创 Hive基础题-1

别看我，不看答案我也不会写正因为不会写，所以才要每天一练。

2024-01-10 16:57:26 490

原创 Spark理论知识—1

(base)node1: pyspark --master spark://node1:7077,node2:7077 但是你前提得开启zk服务，并在另一台服务器开启备用服务高可用模式。进入的是本地模式在node1上输入就使用node1的资源，在node2上输入就使用node2的资源[代码测试用]sftp服务，将本地目录和远程服务器上的目录做映射，将本地代码文件同步到远程服务器上。如何只启动spark计算引擎，而不启动spark自带的资源调度服务。注意这里是all.sh是把所有的都启动了。

2024-01-10 10:37:05 522

原创 Pychram使用手册

2024/01/09。

2024-01-09 10:40:16 540

原创每日报错整体

1/8报错1、卸载python出现报错如何解决2、pip常用命令3、在pychram中安装第三方包的常见问题使用2021版本的pycharm时老是会出现这样的问题看到这个 user 我想到了是不是没有权限的问题，然后使用管理员权限打开命令提示符，在这里使用安装命令，执行成功。4、同一个版本的python，之前在D盘装过，再在C盘装会出现问题D盘之前装过python38，当想在C盘也装一个的时候，按照正常流程走完之后，C盘里面的python38是空的。

2024-01-09 10:32:16 771