12Spark写数据到Kafka及使用kafka调优

之前讲述了spark如何从kafka中消费数据,这次来将一下spark如何将数据写入到kafka中。一、spark写消息到kafka中直接在spark或者sparkstreaming每一批次处理结束后,在rdd.foreachPartition方法体内创建new KafkaProducer来进行数据写入。**不推荐:**因为每一个partition都要与kafka建立一次连接。代码如下:...
摘要由CSDN通过智能技术生成

之前讲述了spark如何从kafka中消费数据,这次来将一下spark如何将数据写入到kafka中。

一、spark写消息到kafka中

  • 直接在spark或者sparkstreaming每一批次处理结束后,在rdd.foreachPartition方法体内创建new KafkaProducer来进行数据写入。
    **不推荐:**因为每一个partition都要与kafka建立一次连接。
    代码如下:
input.foreachRDD(rdd =>
  // 不能在这里创建KafkaProducer,因为不能序列化,需要序列化后传入每一个executor中
  rdd.foreachPartition(partition =>
    partition.foreach{
   
      case x:String=>{
   
        val props = new HashMap[String, Object]()
        props.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, brokers)
        props.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,
          "org.apache.kafka.common.serialization.StringSerializer")
        props.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,
          "org.apache.kafka.common.serialization.StringSerializer")
        println(x)
        val producer = new KafkaProducer[String,String](props)
        val message=new ProducerRecord[String, String]("output",null,x)
        producer.send(message)
      }
    }
  )
) 

说明:对于每个partition的每条记录,我们都需要创建KafkaProducer,然后利用producer进行输出操作,注意这里我们并不能将KafkaProducer的新建任务放在foreachPartition外边,因为KafkaProducer是不可序列化的(not serializable)。显然这种做法是不灵活且低效的,因为每条记录都需要建立一次连接。

  • 改进方式:将KafkaProducer利用lazy val的方式包装实现可序列化,然后广播出去
    首先是lazy包装:
import java.util.concurrent.Future
import org.apache
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值