
Kafka学习
文章平均质量分 91
淡定一生2333
这个作者很懒,什么都没留下…
展开
-
Kafka事务报错之 Producer attempted an operation with an old epoch
今天使用Spark往Kafka中写数据,写入数据的时候配置了transactional.id,即事务性写入。一次性写入的数据量有点大,每次至少是30W+条数据,每条数据有十几个字段。任务经常会报如下错误:...原创 2022-03-16 22:56:25 · 6619 阅读 · 0 评论 -
Kafka的幂等性与事务性理解
最近在深入理解Flink的Exactly-Once,发现Flink Checkpoint只能保障Flink程序内部的一致性,无法保证Sink到外部系统的Exactly-Once语义。但是Sink到外部如果实现了TwoPhaseCommitSinkFunction这个抽象类就能实现端到端的Exactly-Once语义,而Kafka刚好也实现了这个这个类,所以先来研究下Kafka的Exactly-Once是怎么实现的。 在Producer向Kafka发送消息的时候,如果消息成功被写入到日志文件...原创 2020-09-08 12:53:27 · 6821 阅读 · 4 评论 -
Kafka速度为什么快
在之前的《Kafka基本概念整理》文章中曾经说过,Kafka中一个Topic会分成多个Partition,并且每个Partition都有一个leader和零或多个followers。所有的读写操作都由leader处理,一般分区的数量都比broker的数量多的多,各分区的leader均匀的分布在brokers中。 本篇文章来说明下Kafka速度为什么这么快的原因,核心就是Memor...原创 2020-02-02 22:24:25 · 970 阅读 · 0 评论 -
Kafka基本概念整理
之前在项目中做过一些采集相关的开发工作,最近又使用了公司自研的组件进行数据的采集,虽然自研的组件对kafka进行了一些封装,可以不必关注底层细节了。但是了解下底层原理还是有必要的。所以这里对之前的相关开发工作做一些总结,并梳理下遇到的一些问题。一、Kafka介绍1)Apache Kafka由Java和Scala编写,是由Apache软件基金会开发的一个开源消息系统项目。2)K...原创 2019-01-15 22:27:09 · 704 阅读 · 0 评论 -
开发中遇到的一些Kafka问题以及它的Rebalance机制介绍
项目开发过程中遇到的一些问题:问题1:环境中配置的replica.fetch.max.bytes该值偏大,导致有节点下线后同步数据会出现网卡塞满的情况,建议该值在百兆网下配置10M,千兆网20M左右。 问题2:kafka不消费数据。后来发现是超时时间设置的的太短,消费还未处理完就已经被kafka认为超时,导致消费失败,offset不提交,所以一直消费那一批数据。修改超时时间即可。 ...原创 2019-01-15 22:29:39 · 8960 阅读 · 0 评论