kafka生产者

_子栖_

已于 2022-06-13 20:27:51 修改

阅读量2.5k

点赞数

分类专栏：中间件文章标签： kafka

于 2022-04-16 18:58:18 首次发布

本文链接：https://blog.csdn.net/yao_wen_yu/article/details/124216700

版权

中间件专栏收录该内容

22 篇文章 3 订阅

订阅专栏

文章目录

生产者消息发送流程

发送原理

在消息发送的过程中，涉及到两个线程：main线程与Sender线程 。在 main 线程中创建一个双端队列 RecordAccumulator ， main 线程将消息发送给 RecordAccumulator ，Sender 线程不断从 RecordAccumulator 重拉取消息发送到 Kafka Broker.。

在这里插入图片描述

生产者重要参数列表

参数名称	描述
bootstrap.servers	生产者连接集群所需的 broker 地址清单。例如hadoop102:9092,hadoop103:9092,hadoop104:9092，可以设置 1 个或者多个，中间用逗号隔开。注意这里并非需要所有的 broker 地址，因为生产者从给定的 broker里查找到其他 broker 信息。
key.serializer 和 value.serializer	指定发送消息的 key 和 value 的序列化类型。一定要写全类名。
buffer.memory	RecordAccumulator 缓冲区总大小，默认 32m。
batch.size	缓冲区一批数据最大值，默认 16k。适当增加该值，可以提高吞吐量，但是如果该值设置太大，会导致数据传输延迟增加。
inger.ms	如果数据迟迟未达到 batch.size，sender 等待 linger.time之后就会发送数据。单位 ms，默认值是 0ms，表示没有延迟。生产环境建议该值大小为 5-100ms 之间。
acks	0：生产者发送过来的数据，不需要等数据落盘应答。1：生产者发送过来的数据，Leader 收到数据后应答。-1（all）：生产者发送过来的数据，Leader+和 isr 队列里面的所有节点收齐数据后应答。默认值是-1，-1 和all 是等价的。
max.in.flight.requests.per.connection	允许最多没有返回 ack 的次数，默认为 5，开启幂等性要保证该值是 1-5 的数字。
retries	当消息发送出现错误的时候，系统会重发消息。retries表示重试次数。默认是 int 最大值，2147483647。如果设置了重试，还想保证消息的有序性，需要设置MAX_IN_FLIGHT_REQUESTS_PER_CONNECTION=1否则在重试此失败消息的时候，其他的消息可能发送成功了。
retry.backoff.ms	两次重试之间的时间间隔，默认是 100ms。
enable.idempotence	是否开启幂等性，默认 true，开启幂等性。
compression.type	生产者发送的所有数据的压缩方式。默认是 none，也就是不压缩。支持压缩类型：none、gzip、snappy、lz4 和 zstd。

生产者分区

分区好处

便于合理使用存储资源，每个Partition在一个Broker上存储，可以把海量的数据按照分区切割成一块一块数据存储在多台Broker上。合理控制分区的任务，可以实现负载均衡的效果。
提高并行度，生产者可以以分区为单位发送数据；消费者可以以分区为单位进行消费数据。

在这里插入图片描述

默认的分区器 DefaultPartitioner

在这里插入图片描述

（1）指明partition的情况下，直接将指明的值作为partition值；例如partition=0，所有数据写入分区0

（2）没有指明 partition 值但有 key 的情况下，将key的hash值与topic的 partition 数进行取余得到partition值；
例如：key1的hash值=5， key2的hash值=6 ，topic的partition数=2，那么key1 对应的value1写入1号分区，key2对应的value2写入0号分区。

（3）既没有partition值又没有key值的情况下，Kafka采用Sticky Partition（黏性分区器），会随机选择一个分区，并尽可能一直使用该分区，待该分区的batch已满或者已完成，Kafka再随机一个分区进行使用（和上一次的分区不同）。
例如：第一次随机选择0号分区，等0号分区当前批次满了（默认16k）或者linger.ms设置的时间到， Kafka再随机一个分区进行使用（如果还是0会继续随机）。

自定义分区器

需要实现 Partitioner 接口即可
配置加载自定义分区器

public class MyPartition implements Partitioner {

    /**
     * @param topic 主题名称
     * @param key 消息的key
     * @param keyBytes 消息的key序列化之后的字节数组
     * @param value 消息的value
     * @param valueBytes 消息的value序列化之后的字节数组
     * @param cluster 当前集群的元数据
     * @return 返回要写入的分区号
     */
    @Override
    public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
        /**
         * 自定义分区规则：加入消息中含有"kafka"内容,就发送到一号分区，否则发送到二号分区
         */
        //获取消息
        String msg = value.toString();
        //定义分区号
        int partition = 0;

        if (msg.contains("kafka")){
            partition = 1;
        }
        return partition;
    }

    /**
     * 关闭资源
     */
    @Override
    public void close() {

    }

    /**
     * 配置信息
     * @param map
     */
    @Override
    public void configure(Map<String, ?> map) {

    }
}