自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 收藏
  • 关注

原创 PVE 系统下虚拟机数据盘从IDE转换为VIRIO

文件系统 容量 已用 可用 已用% 挂载点umount: /data:未挂载。

2024-08-15 10:27:41 707

原创 Spark RDD 介绍

弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合;

2024-07-26 16:19:05 521

原创 Spark 运行架构

Spark 框架的核心是一个计算引擎,整体来说,它采用了标准的 master-slave 结构。上图中的 Driver 表示 master ,负责管理整个集群中的作业任务调度;Executor 则是 slave,负责实际执行任务;

2024-07-23 17:53:45 793

原创 Hive 函数

UDF(User-Defined-Function) 普通函数,一进一出;例如:round 这样的函数;UDAF(User-Defined Aggregation Function)聚合函数,多进一出;例如:count、sum 这样的函数;UDTF(User-Defined Table-Generating Function)表生成函数,一进多出;例如:explode 函数。

2024-07-16 17:26:04 1012 1

原创 Hive 常见问题

UDF :用户自定义函数,一对一输出,例如 round;UDTF :用户自定义表生产函数,一对多输出,例如 explode;UDAF :用户自定义聚合函数,多对一输出,例如count,sum 等;数据倾斜是指在分布式处理中,数据不均匀,有部分数据比较集中;数据倾斜会使得在处理过程中,某个结点的处理效率过低,甚至造成内存溢出;

2024-07-15 12:18:07 1114

原创 Hive及其架构简介

Hive的order by和sort by的区别:orderby会对输入数据做全局排序,只有一个reduce,数据量较大时,很慢。sortby是局部排序,只能保证每个reduce有序,不能保证全局有序。Hive的数据倾斜:倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;3)、建表时考虑不周;4)、某些SQL语句本身就有数据倾

2024-07-11 17:34:30 374 1

原创 Flink 容错机制

当 Flink 的 JobManager 发起一个 checkpoint 时,它会向所有的 TaskManager 发送一个 checkpoint barrier。当一个算子接收到 barrier ,它会停止处理新的输入数据,直到所有的并行实例都接受到 barrier 并准备好进行 checkpoint;Jobmanager 向失败的 TaskManager 发送恢复指令,指示它从特定的 checkpoint 恢复,TaskManager 接收到指令后,会加载对应的 checkpoint 的状态;

2024-07-02 10:02:23 591

原创 Flink 运行时架构

以上是从一个较为高级的视角,来看应用中各组件的交互协作。如果部署的集群环境不同,其中一些步骤可以省略,或是有些组件会运行在同一个 JVM 进程中。下面以具体部署到 Yarn 上为例:

2024-07-01 10:54:37 988

原创 Java HashMap 简介

解决方法:

2024-06-25 21:11:30 503

原创 Flink 状态管理

流式计算分为无状态和有状态两种情况。无状态的计算观察每个独立事件,并且根据最后一个事件输出结果。例如,流处理应用程序从传感器接收温度读数,并在温度超过90度时发出告警。有状态的计算则会基于多个事件输出结果。例如,计算过去一小时的平均温度。以及在一分钟之内收到两个相差20度以上的温度读数,则发出告警。上图中输入数据由黑条表示。无状态流处理每次只转换一条输入记录,并且仅根据最新的输入记录输出结果(白条)。

2024-06-25 16:41:46 760

原创 JVM 内存区域

Java 虚拟机在执行 Java 程序的过程中,会把它管理的内存划分成若干个不同的数据区域。JDK 1.8 和之前的版本略有不同,这里介绍 JDK 1.7 和 JDK 1.8 两个版本。

2024-06-24 21:22:35 903

原创 Flink 窗口函数

Flink 流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而 window 是一种切割无线数据为有限块进行处理的手段。

2024-06-17 17:44:11 892

原创 JVM 类加载过程详情

最顶层的类加载器,由 C++ 实现,通常表示为 null,并且没有父级,主要用来加载 JDK 内部的核心类库(%JAVA_HOME%/lib 目录下的 rt.jar 、resource.jar 、charsets.jar 等jar包和类)以及被 -Xbootclasspath 参数指定的路径下的所有类;双亲委派模型保证了 Java 程序的稳定运行,可以避免类的重复加载(JVM 区分不同类的方式不仅仅根据类名,相同的类文件被不同的类加载器加载产生的是两个不同的类),也保证了Java 的核心API不被篡改。

2024-06-07 15:12:45 1038

原创 Linux实用命令及脚本

Linux实用命令及脚本

2024-05-08 10:43:40 224 1

原创 虚拟机镜像文件qcow2格式转vmdk

qcow2转vmdk

2024-05-08 10:33:11 1395

原创 虚拟机镜像文件格式qcow2转zst

qcow2转zst

2024-05-08 10:03:08 294

原创 单节点大数据平台运维脚本

单节点的大数据平台运维脚本

2024-02-26 16:44:21 556

原创 ubuntu系统下大数据服务器磁盘调优测试记录

磁盘性能调优测试

2024-02-26 15:23:22 1242

原创 Apache 原生 Hadoop 运维命令

hadoop检查相关命令

2023-09-18 15:48:55 430

原创 clickhouse调优配置

clickhouse配置调优

2023-09-04 16:28:41 1287

原创 Prometheus + grafana 的监控平台部署

Prometheus + grafana 的监控平台安装部署

2023-09-01 17:25:34 886

原创 zookeeper-3.6.4集群搭建

上传路径:/opt/software/解压路径:/opt/module/

2023-09-01 15:00:37 855

原创 ntp同步异常问题解决方案

解决集群ntp同步异常问题

2023-08-31 16:53:31 611

原创 服务器间 ssh 免密登录

配置ssh免密登录

2023-08-29 10:32:41 125

原创 linux 命令批量执行脚本及文件分发脚本

工具脚本

2023-08-29 10:04:14 1601

原创 ElasticSearch集群+kibana部署

es集群+kibana部署

2023-08-29 09:54:37 304

原创 flink on yarn 三种部署模式的相关命令及其差异

flink on yarn 的三种部署模式

2023-08-28 21:59:23 908

原创 Centos7挂载2T以下及2T以上硬盘

使用fdisk工具对磁盘分区。

2023-04-20 17:31:19 3127 1

原创 清理hdfs上flink程序残留的文件

hdfs垃圾文件过多,占用过多磁盘

2023-04-20 15:01:34 833 1

原创 记一次宕机造成的flink消费Kafka topic失败问题

kafka报错:Error while fetching metadata with correlation id 72 :{topic=LEADER_NOT_AVAILABLE}

2023-04-13 16:32:16 838

原创 clickhouse基本数据类型

clickhouse基本数据类型

2023-03-31 11:29:55 769

原创 centos 8 编译安装hyperscan

CentOS 8 编译安装hyperscan

2023-03-09 16:50:08 440 2

原创 设置systemd自启守护进程

大数据组件设置systemd自启守护进程

2023-03-09 15:06:59 203

原创 Shell脚本中$0、$?、$!、$$、$*、$#、$@等符号的意义

Shell中含$符的符号的的意义

2023-01-06 16:02:32 3623

原创 CDH版本Hadoop集成Kerberos

CDH版本Hadoop继承Kerberos

2022-11-22 16:30:01 1096

原创 scala隐式转换

当scala编译器第一次编译失败的时候,会在当前的环境中查找能让代码编译通过的方法,用于将类型进行转换,实现二次编译。(类似于一个整数和一个浮点数相加,编译器可以自动把整数转换为浮点数。)scala中 1 to 10的写法就是用了隐式转换,实际是1.to(10),Int类型的1调用了RichInt的to()方法。

2022-10-11 11:10:02 196

原创 ElasticSearch设置用户名和密码

ES和设置用户密码认证

2022-09-22 16:24:13 9381 1

原创 kafka压力测试及调优

kafka调优

2022-09-22 15:18:36 897

原创 正则表达式匹配敏感信息

正则表达式匹配敏感信息

2022-09-22 14:19:01 788

原创 GBK转码乱码问题

GBK乱码问题

2022-09-21 09:36:54 1116

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除