自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 Flink TaskManager内存管理机制介绍与调优总结

Flink TaskManager内存管理机制介绍与调优总结

2024-01-17 09:36:17 3292

原创 kafka的堆内存大小对kafka的影响以及为什么堆内存大一些kafka会更稳定

堆内存是Java虚拟机(JVM)用于存储运行时数据的一部分内存。对于Kafka Broker,它是一个由Java编写的分布式消息系统,因此Kafka Broker的性能和稳定性会受到堆内存大小的影响。Kafka Broker使用内存来存储消息,以支持高效的读写操作。消息在内存中进行缓存,以加速消费者的读取和生产者的写入。如果堆内存较小,可能导致消息不能完全缓存,需要更频繁地访问磁盘,影响性能。堆内存的大小与Java虚拟机的垃圾回收行为直接相关。

2024-01-17 08:53:21 846

原创 Flink的两阶段提交是什么

两阶段提交 Two-Phase-Commit,简称 2PC,是很常用的解决分布式事务问题的方式,它可以保证在分布式事务中,要么所有参与进程都提交事务,要么都取消,即实现 ACID 中的 A (原子性)。如果协调者获取到的所有参与者节点返回的消息都为“同意”时,协调者向所有参与者节点发送“正式提交”的请求(成功情况);反之,如果任意一个参与者节点预提交阶段返回的响应消息为“终止”,或者协调者询问阶段超时,导致没有收到所有的参与者节点的响应,那么,协调者向所有参与者节点发送“回滚提交”的请求(失败情况)。

2024-01-17 08:36:06 1091

原创 Flink的checkpoint遇到过什么问题,什么原因导致的

checkpoint 失败一般都和反压相结合。。我们知道, Flink checkpoint 机制是基于 barrier 的, 在数据处理过程中, barrier 也需要像普通数据一样,在 buffer 中排队,等待被处理。当 buffer 较大或者数据处理较慢时,barrier 需要很久才能够到达算子,触发 checkpoint。尤其是当存在反压时,barrier 需要在 buffer 中流动数个小时,从而导致 checkpoint 执行时间过长,超过了 timeout 还没有完成,从而导致失败。

2024-01-16 08:41:44 964

原创 Flink中ProcessFunction的用法

通过状态,可以在处理过程中保持和更新状态,实现更为复杂的业务逻辑。也可以用于实现异步 I/O 操作,通过将异步请求和回调与 Flink 的时间和定时器集成,实现对异步操作的管理。方法接收一个输入元素(Tuple2 类型),并更新一个计数器的状态,然后将结果输出。的子类,它可以访问运行时上下文(RuntimeContext),并且可以注册定时器。支持处理时间和事件时间的操作,可以在元素的时间戳上进行处理逻辑,并注册相应的定时器。允许注册事件时间定时器和处理时间定时器,以执行在未来某个时间点触发的操作。

2024-01-16 08:39:06 687

原创 大数据日志数据量过大如何处理

Flume 提供了灵活的拦截器和通道配置,可以根据条件将数据分流到不同的通道,最终到达不同的存储或处理系统。通过配置 Nginx 的日志模块,你可以将日志数据分发到不同的文件、远程服务器或者消息队列,实现数据分流。你可以使用 Kafka 来实现数据分流,将数据发布到不同的 Kafka 主题,然后让消费者根据主题订阅感兴趣的数据流。这是一个简化的例子,实际的分流规则可能会更加复杂,取决于你的业务需求和埋点数据的具体内容。确保分流规则能够充分利用埋点数据中的信息,以便将数据准确地路由到不同的处理路径。

2024-01-15 09:25:55 480

原创 Datax同步(高可用HDFS版本)

这是一个mysql同步到hive的json脚本,hive的底层使用的是HDFS存储,同步到hive,只能用hdfswriter。这个是我hdfs页面的信息,根据自己的信息做json代码的改动。

2024-01-15 09:21:04 664

原创 flink双流ioin的大状态如何解决和调优

Flink 中的双流ioin操作(双流连接)通常涉及大状态的处理,这可能导致一些性能和状态管理的挑战。以下是解决和调优 Flink 中双流ioin。

2024-01-13 17:29:38 1478

原创 Clickhouse写入分布式表还是本地表

我们选择写入分布式表主要有两点,一是简单,因为写入本地表需要改造代码,自己指定写入哪个节点,另一个是开发过程中写入本地表并未出现什么严重的性能瓶颈。如果写入分布式表也只是单纯的网络转发,影响也不大,但是写入分布式表并非单纯的转发,实际情况见下图。第一步:写入分布式表1000条数据,分布式表会根据路由规则,假设按照规则300条分配到S1,200条到S2,500条到S3。第二步:client给过来1000条数据,属于S1的300条数据直接写入磁盘,数据S2,S3的数据也会写入到S1的临时目录。

2024-01-13 17:27:10 998

原创 Hive的数据倾斜处理方案

主要是对hive的一些数据倾斜的处理

2023-11-11 09:43:57 225

原创 命令行窗口hadoop version报错Error: JAVA_HOME is incorrectly set

系统找不到指定的路径。Error: JAVA_HOME is incorrectly set

2023-09-04 15:31:47 364

原创 Spark!reduceByKey 和 groupByKey 的区别?

Spark中reduceByKey 和 groupByKey 的区别

2023-08-08 21:32:33 170

原创 Scala!Map和Reduce方法的使用及简写

scala中Map方法以及Reduce方法的使用

2023-08-05 09:48:39 432

原创 centos7中文件权限问题

后9位都为权限,前三位是当前用户权限,中间三位是组权限,后三位是除当前用户以及除了组成员的权限的其他权限,比如这里的profile文件,-表示这是一个文件,rw-是用户权限,是读和写的权限,第5位到第7位是r--表示相同组的只能拥有读的权限,最后三位是r--说明,其他用户也是只能读的权限。因为在以后的公司中,不可能你要创建一个用户,组,修改权限什么的,就切换到root账号,所以可以在root账号中设置,给予某个用户一个创建用户,或者修改文件权限的权限。u是用户,g是组,o是其他。在进100行左右输入。

2023-07-19 16:24:12 2068

原创 vi编辑器的常用命令

我们使用vi来打开文件,也可以vi+(注意加号)数字+文件名,指定进入之后光标所在行数,空为最后一行也可以vi+/关键字+文件名,n表示下一个,N表示上一个vi编辑器分为三种模式,默认进入的就是命令模式,对应的还有编辑模式和末行模式。

2023-07-19 16:15:06 1078

原创 linux关闭防火墙的命令

需要注意的是,如果当前防火墙是处理开启状态,使用disable禁用防火墙之后,并不会直接处于关闭状态,如果想要直接让他处于关闭状态,需要运行一下。

2023-07-19 16:05:45 722

原创 linux配置静态ip

linux配置静态ip

2023-07-19 16:03:35 275

原创 支付宝沙箱模拟支付功能

实现支付宝沙箱的模拟支付功能

2023-07-08 17:35:38 641 2

原创 SpringMvc请求转发和重定向的常用方法

springMvc中几个常用的请求转发和重定向的方法

2023-06-15 19:55:59 275 1

原创 面试必看!!!关于IOC的十道面试题

面试必看!!!关于IOC的十道面试题

2023-06-06 21:26:33 1074

原创 一张图说明Map接口下的Map,TreeMap,HashMap,HashTable(附HashMap底层原理)

hashMap的底层是哈希表,继承于abstractMap<k,v>,并且允许null值和null键,hashMap的初始容量为16,扩容因子为0.75,当容量满足初始容量*扩容因子的时候就会实现自动扩容,扩容容量是初始容量的2倍,被扩容之后,数据的hash值所对应的位桶索引就需要被重新计算,增加运行时间和空间,所以我们也可以使用自己定义初始容量。TreeMap集合的底层是红黑树,会自动去重以及自动升序排序(分位内部比较器和外部比较器),我们需要关注的是map接口下的去重只会去重重复的key值。

2023-05-17 17:24:02 114

原创 Mysql中字符串截取SUBSTRING_INDEX

编写mysql查询的时候,如何使用substring_index函数来实现字符串截取

2023-04-05 19:12:13 647

原创 java中数组定义与使用

主要讲一下java中关于数组的一些基础,比如说数组的概念,数组是如何定义的,数组的遍历方式

2023-04-05 11:54:00 166 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除