kafka
Sigmund_Y
此人很懒,什么都没有写,是的!!!
展开
-
21Kafka大合集
kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式,先进先出(FIFO)保证顺序,自己不丢数据,默认每隔7天清理数据。消息列队常见场景:系统之间解耦合、峰值压力缓冲、异步通信。一、kafka架构简介kafka架构的组成:Kafka架构是由:producer(消息生产者)consumer(消息消费者)borker(kafka集群的server,负责处理消息读、写请求,...原创 2020-04-23 23:52:24 · 227 阅读 · 0 评论 -
13SparkStreaming动态感知kafka某个topic下partition
说明SparkStreaming动态感知kafka某个topic下partition,需要对kafka版本区分来看。kafka 0.8版本结论:kafka 0.8版本和Spark Streaming结合的DirectStream这种形式的API里面,是不支持kafka新增分区或者topic检测的。所以如果想读取新的分区中的数据,那么就得重新启动Spark Streaming应用。结合spa...原创 2020-04-19 11:29:14 · 651 阅读 · 0 评论 -
12Spark写数据到Kafka及使用kafka调优
之前讲述了spark如何从kafka中消费数据,这次来将一下spark如何将数据写入到kafka中。一、spark写消息到kafka中直接在spark或者sparkstreaming每一批次处理结束后,在rdd.foreachPartition方法体内创建new KafkaProducer来进行数据写入。**不推荐:**因为每一个partition都要与kafka建立一次连接。代码如下:...原创 2020-04-19 10:57:36 · 1180 阅读 · 0 评论 -
11SparkStreaming消费kafka以及offset提交
spark streaming流式处理kafka中的数据,第一步是先把数据接收过来,转换为spark streaming中的数据结构Dstream。接收数据的方式有两种:1.利用Receiver接收数据,2.直接从kafka读取数据。一、Receiver方式消费kafka这种方式利用接收器(Receiver)来接收kafka中的数据,其最基本是使用Kafka高阶用户API接口。对于所有的接收器...原创 2020-04-19 00:49:35 · 892 阅读 · 0 评论