自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

中长跑路上的crush

自学Hadoop(中长跑加上程序员会发生怎样的化学反应)

  • 博客(57)
  • 收藏
  • 关注

原创 无法连接宽带

我在学校的时候,都是插入宽带,就会直接弹出连接的网页,到外地后,不能弹出。

2024-02-17 17:33:33 145

原创 Unknown system variable ‘tx_read_only

但是使用pycharm就会报一个错误。使用datagrip可以创建成功。

2024-02-08 15:53:46 353

原创 org.apache.thrift.transport.TTransportException: java.net.SocketException: Software caused connectio

hive没有开,我用的CDH,应该是记差了原以为会自动开启。错误发生在,我创建好库,创建好表,往表中插入好数据。

2024-02-06 15:59:14 175

原创 实现自己的小功能(方案二)

第一套方案废弃的原因是数据不准确,大家可以使用Tushare试试,多测试一些。

2024-01-31 12:00:07 391

原创 自己实现的小功能

将文本模式的csv文件作为表编辑之后,先要再变回来。找了5分钟都没找到,去网上搜也没搜到解决方案复制一份,对没错。不是把表遍历一遍,重新将数据写入。3.5给的答案就是重新写入一个新的文件问题二:在做回测时,又发现了数据有问题。

2024-01-31 10:22:36 138

原创 无法进入3.5

不管是手机还是电脑,一定一定把缓存记录全部清除了【不然还是进不去】,不会清理那些数据就直接把软件卸载了,重新按照。我自己存在这样一个问题,用美国的这个节点能进去,用日本的进不去。

2024-01-29 11:19:07 104

原创 找不到mode

在执行业务代码文件中添加 在文件首行添加。先把项目全部重新上传一下。不行就使用sys模块。

2024-01-27 13:17:27 137

原创 ES常用操作

【代码】ES常用操作。

2024-01-25 17:24:31 367

原创 Spark写入kafka(批数据和流式)

【代码】Spark写入kafka(批数据和流式)

2024-01-21 10:48:27 1350

原创 消费数据积压

生产者生产数据的速度超过消费者处理数据的速度,会造成kafka中积压大量未处理的数据。

2024-01-20 20:20:38 523

原创 Spark读取kafka(流式和批数据)

【代码】Spark读取kafka(流式和批数据)

2024-01-20 11:45:17 972

原创 StructuredStreaming输出模式和结果输出文件中

update 支持聚合,支持select单纯的查询 不支持聚合后排序,每次输出时,只展示最新聚合后的结果。#complete 必须聚合,支持聚合后排序 每次输出数据都会将原来的数据一起输出。#append 不支持排序,不支持聚合, 每次输出数据都是最新的数据内容。#format指定输出位置 console:控制台。也就是说不支持聚合结果输出到文件当中。

2024-01-19 21:41:53 446

原创 Spark流式读取文件数据

df_json = ss.readStream.json(‘hdfs://node1:8020/目录’)df_csv = ss.readStream.csv(‘hdfs://node1:8020/目录’)场景:某天你上传一个文件,发现它不做任何读取和处理,你需要考虑,这个文件名以前是否处理过了。文件的读取方式在实际开发中用的比较少,每生产一条数据,就要生成一个文件(你修改了文件一的内容,不修改文件名,你再次上传会发现它不去读取。但是你不修改文件内容,修改文件名,你再上传会发现它还会去读取。

2024-01-19 17:21:46 526

原创 Linux基础命令(超详细)

home目录就是家目录,每个用户都有自己不同的家目录,两个不同的用户不能共用一个家目录。注意: 超级管理员用户有且只有一个,拥有最高权限(能自毁)当我们进入linux系统时,系统会默认加载到。超级管理员用户的家目录 : /root。普通用户的家目录: /home/用户名。命令: 告诉我们要做什么事。查询当前工作目录的绝对路径。

2024-01-18 15:19:06 492

原创 spark-udf函数

from pyspark.sql import SparkSessionfrom pyspark.sql.types import *ss = SparkSession.builder.getOrCreate()df_csv = ss.read.csv(‘hdfs://node1:8020/user/hive/warehouse/data/stu.csv’,schema=‘name string,age int,gender string,phone string,email string,city s

2024-01-17 15:56:18 1077

原创 连接超时的问题

需要注释掉一个#192.168.xx.161 node1。windows上Hosts文件域名解析有问题。两个都解析成node1。

2024-01-16 16:40:16 429

原创 Kafka详解

英文名:Message Queue,经常缩写为MQ。从字面上来理解,消息队列是用来存储传递消息的。

2024-01-16 08:22:04 623

原创 SparkSQL和Hive语法差异

rand()nullvoidCTAS建表。

2024-01-15 09:23:55 1296

原创 Linux重点

Linux命令的组成?a. 命令本身,选项,参数。查看的两个操作a. cat 适合小文件b. more分页查询适合中文件创建文件的选项有啥?创建文件的小技巧a. 选项有-pb. 不管是否创建创建递进的文件,先给-p加上,加上不会报错复制文件的选项有啥?复制文件的小技巧,复制文件能重命名吗?给个案例a. -r,注意这里很容易和-p混淆b. 同上,复制文件不管三七二十一加上-rc. cp /code/1.txt /mode/2.txt移动文件有选项吗?移动能重命名吗?给个案例a.

2024-01-14 17:42:31 443

原创 Kafka

多个broker会选取产生一个控制器, 类似zk中 leader角色。kafka集群运行后,每台服务器上的kafka称为一个broker节点。分区(分片) Partition。副本 Replication。处理消费者和生成者的请求。偏移量(offset)

2024-01-14 17:39:34 545

原创 Spark-RDD的依赖

服务启动: /export/server/spark/sbin/start-history-server.sh。程序运行期间查看 4040端口 交互式开发。程序运行结束后查看 18080端口。Spark中有DAG管理依赖关系。日志查看依赖关系和计算流程。rdd之间是有依赖关系。

2024-01-13 08:56:16 481

原创 SPARK--cache(缓存)和checkpoint检查点机制

也是将中间rdd数据存储起来,但是存储的位置实时分布式存储系统,可以进行永久保存,程序结束不会释放。缓存是将数据存储在内存或者磁盘上,缓存的特点时,计算结束,缓存自动清空。如果需要删除就在hdfs上删除对应的目录文件。

2024-01-13 07:48:29 579

原创 Spark算子(RDD)超细致讲解

map,flatmap,sortBykey, reduceBykey,groupBykey,Mapvalues,filter,distinct,sortBy,groupBy共10个转换算子。

2024-01-12 15:54:32 1308

原创 Spark-RDD详解

rdd中封装了各种算子方便进行计算,主要分为两类转化算子 对rdd数据进行转化计算得到新的rdd,定义了一个线程任务action执行算子 触发计算任务,让计算任务进行执行,得到结果触发线程执行的。

2024-01-12 09:40:49 1734

原创 Spark基础

建库一定要指定字符集,错了好多次了。

2024-01-11 15:28:22 610

原创 Hive基础题-1

别看我,不看答案我也不会写正因为不会写,所以才要每天一练。

2024-01-10 16:57:26 490

原创 Spark理论知识—1

(base)node1: pyspark --master spark://node1:7077,node2:7077 但是你前提得开启zk服务,并在另一台服务器开启备用服务 高可用模式。进入的是本地模式 在node1上输入就使用node1的资源,在node2上输入就使用node2的资源[代码测试用]sftp服务,将本地目录和远程服务器上的目录做映射,将本地代码文件同步到远程服务器上。如何只启动spark计算引擎,而不启动spark自带的资源调度服务。注意这里是all.sh是把所有的都启动了。

2024-01-10 10:37:05 522

原创 Pychram使用手册

2024/01/09。

2024-01-09 10:40:16 540

原创 每日报错整体

1/8报错1、卸载python出现报错如何解决2、pip常用命令3、在pychram中安装第三方包的常见问题使用2021版本的pycharm时老是会出现这样的问题看到这个 user 我想到了是不是没有权限的问题,然后使用 管理员权限 打开 命令提示符 ,在这里使用安装命令,执行成功。4、同一个版本的python,之前在D盘装过,再在C盘装会出现问题D盘之前装过python38,当想在C盘也装一个的时候,按照正常流程走完之后,C盘里面的python38是空的。

2024-01-09 10:32:16 771

原创 【无标题】

如果把学习当作是一个项目,那它应该也有很多模块。

2024-01-07 19:05:15 387

原创 Python和Java环境搭建

首先不建议装在C盘,一旦重置电脑,之前安装第三方包需要重新安装relolver:解释器。

2024-01-07 18:49:13 601

原创 各种基础环境搭建

验证环境变量是否添加成功输入python。

2024-01-07 15:37:58 330

原创 搭建环境的各种疑难杂症

【代码】搭建环境的各种疑难杂症。

2024-01-07 15:15:39 379

原创 使用linux服务器的crontab模块进行定时调度

【代码】使用linux服务器的crontab模块进行定时调度。

2024-01-06 17:39:38 388

原创 FineReport--下拉复选框空值查询显示全部数据

不筛选不筛选。

2024-01-06 11:56:28 1053

原创 常用BI报表数据集参数--超细致

我自己尝试去写,然后错了,因为确认之后没有弹出来让我选择。单引号必须得在外面,不然你出来的时候找不到参数组件。还有一个是判断语句,不筛选也能展示全部数据。这个是不点击查询显示报表内容。

2024-01-05 21:08:16 433

原创 BI报表开发--单元格设置(细致教学)

需要注意,点击的虽然是第一列,但是里面选的是货主地区,这个我是理解的,最后一定要添加(这个我老是忘记)

2024-01-05 18:37:46 415

原创 超细致-普通报表

【模块】–>【模版参数】–>【修改为地区】–>【选择为字符串】–>【华北】(不是地区)

2024-01-04 22:24:40 352 1

原创 超细致的填报报表流程

超细致的填报报表流程教学

2024-01-04 20:40:03 850 1

原创 【无标题】

cdh虚拟机中服务会自动启动手动启动。

2024-01-03 22:18:35 398 1

FineReport自学资料

FineReport自学资料

2024-02-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除