12Spark写数据到Kafka及使用kafka调优

最新推荐文章于 2024-03-18 15:37:08 发布

Sigmund_Y

最新推荐文章于 2024-03-18 15:37:08 发布

阅读量1.2k

点赞数

分类专栏： spark kafka 文章标签： kafka spark

本文链接：https://blog.csdn.net/yangbllove/article/details/105610938

版权

之前讲述了spark如何从kafka中消费数据，这次来将一下spark如何将数据写入到kafka中。一、spark写消息到kafka中直接在spark或者sparkstreaming每一批次处理结束后，在rdd.foreachPartition方法体内创建new KafkaProducer来进行数据写入。**不推荐：**因为每一个partition都要与kafka建立一次连接。代码如下：...

摘要由CSDN通过智能技术生成

之前讲述了spark如何从kafka中消费数据，这次来将一下spark如何将数据写入到kafka中。

一、spark写消息到kafka中

直接在spark或者sparkstreaming每一批次处理结束后，在rdd.foreachPartition方法体内创建new KafkaProducer来进行数据写入。
**不推荐：**因为每一个partition都要与kafka建立一次连接。
代码如下：

input.foreachRDD(rdd =>
  // 不能在这里创建KafkaProducer，因为不能序列化，需要序列化后传入每一个executor中
  rdd.foreachPartition(partition =>
    partition.foreach{
   
      case x:String=>{
   
        val props = new HashMap[String, Object]()
        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, brokers)
        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,
          "org.apache.kafka.common.serialization.StringSerializer")
        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,
          "org.apache.kafka.common.serialization.StringSerializer")
        println(x)
        val producer = new KafkaProducer[String,String](props)
        val message=new ProducerRecord[String, String]("output",null,x)
        producer.send(message)
      }
    }
  )
)

说明：对于每个partition的每条记录，我们都需要创建KafkaProducer，然后利用producer进行输出操作，注意这里我们并不能将KafkaProducer的新建任务放在foreachPartition外边，因为KafkaProducer是不可序列化的（not serializable）。显然这种做法是不灵活且低效的，因为每条记录都需要建立一次连接。

改进方式：将KafkaProducer利用lazy val的方式包装实现可序列化，然后广播出去
首先是lazy包装：

import java.util.concurrent.Future
import org.apache

最低0.47元/天解锁文章

Sigmund_Y

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
12Spark写数据到Kafka及使用kafka调优

之前讲述了spark如何从kafka中消费数据，这次来将一下spark如何将数据写入到kafka中。一、spark写消息到kafka中直接在spark或者sparkstreaming每一批次处理结束后，在rdd.foreachPartition方法体内创建new KafkaProducer来进行数据写入。**不推荐：**因为每一个partition都要与kafka建立一次连接。代码如下：...
复制链接

扫一扫

专栏目录