Kafka学习（8）- kafka使用Java开发-4-自定义分区

最新推荐文章于 2023-06-28 13:44:36 发布

yigg

最新推荐文章于 2023-06-28 13:44:36 发布

阅读量657

点赞数 1

分类专栏： # kafka

本文链接：https://blog.csdn.net/yiguang_820/article/details/86324688

版权

kafka 专栏收录该内容

14 篇文章 7 订阅

订阅专栏

目录：

如何在某个主题下的某个分区拿数据（假设my-topic有3个分区）
为什么要自定义分区
自定义分区操作流程
1. 创建自定义类，实现org.apache.kafka.clients.producer.Partitioner接口
2. 重写public int partition方法
3. 配置项中加入partitioner.class属性

一.在某个主题的特定分区拿数据

生产者生产的数据，在分配的过程有什么原则？
生产者代码：

package kafkaTest;

import java.util.Properties;

import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.Producer;
import org.apache.kafka.clients.producer.ProducerRecord;

import kafkaTest.util.PropertiesUtil;

public class ProducerSend {
	public static void main(String args[]) {
		
		//1.属性配置：端口、缓冲内存、最大连接数、key序列化、value序列化等等
		 /*
		 Properties props=new Properties();
		 props.put("bootstrap.servers", "localhost:9092");
		 props.put("acks", "all");
		 props.put("retries", 0); 
		 props.put("batch.size", 16384); 
		 props.put("linger.ms", 1);
		 props.put("buffer.memory", 33554432); 
		 props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer"); 
		 props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");*/
		
		
		//2.创建生产者对象，并建立连接,通过我们自己创建的 PropertiesUtil 工具类获得配置文件（根据传入的值，获得相对应的properties文件）
		Producer<String, String> producer = new KafkaProducer<>(PropertiesUtil.getProperties("producer"));
		
		//3.在my-topic主题下，发送消息
		for(int i = 0; i < 100; i++) {
			//1.可根据主题和内容发送，当没有key的时候，生产者生产的数据会放在该主题的所有分区均衡分布。
			//2.可根据主题、key和内容发送，当有key的时候，生产者生产的数据会放在同一个分区。
			//3.可根据主题、分区、key和内容发送
			//4.可根据主题、分区、时间戳、key和内容发送
			producer.send(new ProducerRecord<String, String>("my-topic", Integer.toString(i), Integer.toString(i)));
			System.out.println("消息"+i);
		}
		
		//4.关闭
		producer.close();
		
	}
}

消费者拿到的数据是什么形式？

如果主题只有一个分区，消费者拿到的数据就是生产者生产的所有的有序数据（数据1，2，3，4.....10)
如果主题下有多个分区，生产者没有根据key发送，消费者指定了特定的分区，那么消费的数据就是生产者生产的部分数据（可能是数据1,4,7,10或者2,5,8，或者3,6,9）
如果主题下有多个分区，生产者没有根据key发送，消费者没有指定特定的分区，那么消费的数据就是生产者生产的所有数据，无序数据，随机消费哪个区（数据1,3,2......或者1,2,3......或者3,2,1......或者2,3,1......等等)
如果主题下有多个分区，生产者根据key发送，消费者没有指定特定的分区，那么消费的数据就是生产者生产的所有数据（数据1，2，3，4.....10)

如果主题下有多个分区，生产者根据key发送，消费者指定特定的分区，那么消费的数据可能是生产者生产的所有数据，或者是没有（因为数据可能没有放在该分区）（数据1，2，3，4.....10或者无)
消费者代码：

package kafkaTest;

import java.util.Arrays;
import java.util.Date;
import java.util.Properties;

import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.TopicPartition;

import kafkaTest.util.PropertiesUtil;

public class ConsumerReceive {
	public static void main(String args[]) {
		
		//1.参数配置:不是每一非得配置
		/*Properties props = new Properties();
	    props.put("bootstrap.servers", "localhost:9092");
	    props.put("auto.commit.interval.ms", "1000");
	    props.put("group.id", "test");//因为每一个消费者必须属于某一个消费者组，所以必须还设置group.id
	    props.put("enable.auto.commit", "true");
	    props.put("session.timeout.ms", "30000");
	    props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
	    props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");*/
	    
	    //2.创建消费者对象，并建立连接
	    KafkaConsumer<String, String> consumer = new KafkaConsumer<>(PropertiesUtil.getProperties("consumer"));
	    
	    //3.设置从"my-topic"主题下拿取数据
	    //consumer.subscribe(Arrays.asList("my-topic"));
	    
	    //3.设置从my-topic主题的0号分区拿数据
	    TopicPartition tp01=new TopicPartition("my-topic", 0);
	    consumer.assign(Arrays.asList(tp01));
	    
	    //4.消费数据
	    while (true) {
	    	//阻塞时间，从kafka中取出100毫秒的数据，有可能一次性去除0-n条
	        ConsumerRecords<String, String> records = consumer.poll(100);
	        //遍历
	        for (ConsumerRecord<String, String> record : records)
	        	//打印结果
	                //System.out.printf("offset = %d, key = %s, value = %s", record.offset(), record.key(), record.value());
	        	System.out.println("消费者消费的数据为："+record.value()+"-"+new Date());
	        	
	        	//手动提交
	        	consumer.commitAsync();
	    }
	}
}

二.为什么要自定义分区

假设有这么一个需求：需要把生产的数据按省份分配到10个分区，很明显，分区不够，所以自定义分区来解决这个问题

三自定义分区操作流程

创建自定义类，实现org.apache.kafka.clients.producer.Partitioner接口

重写public int partition方法

package kafkaTest;

import java.util.Map;

import org.apache.kafka.clients.producer.Partitioner;
import org.apache.kafka.common.Cluster;

public class MyPartition implements Partitioner{
    //这个方法就决定了消息往哪个分区里面发送
    //这个方法的返回值就是表示我们的数据要去哪个分区，如果返回值是0，表示我们的数据去0分区
    public int partition(String topic, Object key, byte[] bytes, Object value, byte[] bytes1, Cluster cluster) {
        System.out.println(topic);
        System.out.println(value.toString());
        return 0;
    }

    public void close() {

    }

    public void configure(Map<String, ?> map) {

    }
}

加入partitioner.class属性
1. 方法一：没有使用配置文件话，直接在生产者代码中添加
```
props.put("partitioner.class", "KafkaTest.MyPartitioner");
```
2. 方法二：使用配置文件，添加
```
partitioner.class=KafkaTest.MyPartitioner
```

yigg

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Kafka学习（8）- kafka使用Java开发-4-自定义分区

目录：如何在某个主题下的某个分区拿数据（假设my-topic有3个分区）为什么要自定义分区自定义分区操作流程创建自定义类，实现org.apache.kafka.clients.producer.Partitioner接口重写public int partition方法配置项中加入partitioner.class属性一.在某个主题的特定分区拿数据生产者生产的数...
复制链接

扫一扫