kafka基础【数据重复消费、自定义拦截器、flume对接kafka、eagle监视器】

最新推荐文章于 2023-09-03 11:37:00 发布

OneTenTwo76

最新推荐文章于 2023-09-03 11:37:00 发布

阅读量476

点赞数

分类专栏： kafka基础大数据开发文章标签： kafka flume java

本文链接：https://blog.csdn.net/weixin_43923463/article/details/124783633

版权

文章目录

一数据漏消费和重复消费
二自定义Interceptor
三 Flume对接kafka
- 1 配置文件
- 2 案例实操
四 kafka监控（Eagle）

一数据漏消费和重复消费

无论是同步提交还是异步提交offset，都有可能会造成数据的漏消费或者重复消费。先提交offset后消费，有可能造成数据的漏消费；而先消费后提交offset，有可能会造成数据的重复消费。

重复消费解决方案：

（1）下游去重：但是缺点是kafka采取了幂等性和事务，保证了kafka服务端消息没有重复的情况下，下游去重浪费了kafka的性能

（2）确保数据的消费和提交两个操作是原子性的，要么同时成功，要么同时失败。原子化绑定的前提是提交动作不能往kafka服务端提交，因为往kafka服务端提交与消费动作无法实现原子绑定。因此想实现原子化绑定，需要自己保存offset，而不是让kafka帮我们保存offset。

手动保存offset

package com.hike.consumer;

import org.apache.kafka.clients.consumer.ConsumerRebalanceListener;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.TopicPartition;

import java.io.*;
import java.util.*;

/**
 * 自定义保存offset
 */
public class ConsumerManual {
   
    //记录每个消费者消费的offset，缓存
    private static Map<TopicPartition,Long> offset = new HashMap<TopicPartition, Long>();
    //用来保存Hash值
    private static String file = "d:/offset";

    public static void main(String[] args) throws IOException, InterruptedException {
   
        //1 新建一个consumer对象
        Properties properties = new Properties();
        properties.load(Consumer.class.getClassLoader().getResourceAsStream("consumer1.properties"));
        final KafkaConsumer<String, String> consumer = new KafkaConsumer<String, String>(properties);
        //2 订阅话题，拉取消息
        consumer.subscribe(Collections.singleton("hello"),
                //每当有一个新的消费者加入到consumerGroup都会重新进行分区分配
                new ConsumerRebalanceListener() {
   
            //新加入进来的consumer应该从之前组中的consumer消费过的地方开始消费，而不是从0开始
            //之前由kafka服务器负责告知，现在采用自定义保存offset的方式，服务器不知道消费的位置
            //需要手动的告诉新加入的消费者，需要分别执行以下两个函数，完成此项功能

            //分区分配之前做的事情
            public void onPartitionsRevoked(Collection<TopicPartition> partitions) {
   
                //各个消费者应该将旧的offset提交
                commit();
            }

            //分区分配之后做的事情
            public void onPartitionsAssigned(Collection<TopicPartition> partitions) {
   
                //各个消费者应该将offset遍历，获取新的offset
                readOffset(partitions);
                //遍历所有分区，将offset读取出来，告诉消费者从哪里开始消费
                for (TopicPartition partition : partitions) {
   
                    Long os = offset.get(partition);
                    if (os == null) {
   
                        consumer.seek(partition, 0);
                    } else {
   
                        consumer.seek(partition, os);
                    }
                }
            }
        });

        //消费消息
        while(true){
   
            ConsumerRecords<String, String> records = consumer.poll(2000);
            //将此部分的操作原子绑定
            {
   
                for (ConsumerRecord<String, String> record : records) {
   
                    System.out.println(record);
                    //将获取到的数据存放到高速缓存中
                    offset.put(
                            new TopicPartition(record.topic(), record<

最低0.47元/天解锁文章

OneTenTwo76

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
kafka基础【数据重复消费、自定义拦截器、flume对接kafka、eagle监视器】

文章目录一数据漏消费和重复消费二自定义Interceptor1 案例需求2 TimeInterceptor类3 CountInterceptor类4 在producer中添加几条语句三 Flume对接kafka1 配置文件2 案例实操四 kafka监控（Eagle）一数据漏消费和重复消费无论是同步提交还是异步提交offset，都有可能会造成数据的漏消费或者重复消费。先提交offset后消费，有可能造成数据的漏消费；而先消费后提交offset，有可能会造成数据的重复消费。重复消费解决方案：（1）
复制链接

扫一扫