![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
kafka
yyqq188
这个作者很懒,什么都没留下…
展开
-
如何为Kafka集群选择合适的Topic/Partitions数量
介绍一些与本问题相关的一些重要决策因素,并提供一些简单的计算公式越多的分区可以提供更高的的吞吐首先要明白,在kafka中,单个partition是kafka并行操作的最小单元,在producter和broker端,向每一个分区写入数据是完全可以并行的,此时,可以通过加大硬件资源的利用率来提升系统的吞吐量,例如对数据进行压缩,在consumer端,kafka只允许单个partition的数据原创 2018-02-27 14:01:01 · 9686 阅读 · 0 评论 -
(1)kafka综述和技术细节
kafka不仅仅是一个简单的消息队列,这个很片面,它是一个完备的流式数据平台,具备下面三个特点1 类似消息系统2 数据存储功能3 能够对实时事件流进行流式处理分析展开来说:消息系统有两种消息模型,队列和发布订阅模型存储系统是数据会保存到磁盘中。流处理系统:简单的处理,可以直接使用kafka的生产者和消费者的API来完成,但对于复杂的业务逻辑处理,直接操原创 2018-02-27 16:45:36 · 253 阅读 · 0 评论 -
kafka是数据处理的未来?
kafka能够通过kafka connect API实现流数据管道的构建,也就是ETL中的E和L,connect API利用了kafka的可扩展性,基于kafka的容错模型进行构建并且提供了一种统一的方式监控所有的连接器。流处理转换可以通过Kafka Stream API来实现,这提供了ETL中的T,来自source的数据经过抽取后可以作为结构化的事件放到平台中,然后可以通过流处理进行任意的转原创 2018-02-28 11:42:29 · 527 阅读 · 0 评论 -
kafka设计原理以及应用
kafka原创 2018-02-26 09:22:13 · 430 阅读 · 0 评论 -
kafka接flume遇到的问题
同事遇到点问题,抛出来了4个问题,如下1 flume的source是kafka,sink是hdfs,怎样判断flume是否堆积,或者是说怎么样保证落地的速度和消费的速度是平衡的2 怎么判断flume的agent程序是否挂掉3 挂掉时tmp文件爱呢怎么处理(hdfs上的tmp文件)4 我遇到一个问题,当agent是6个时,一小时约生成26.5G文件,当有3个agent时,一小原创 2018-03-22 11:04:58 · 3946 阅读 · 0 评论