spark-streaming 编程(四)自定义输出foreachRDD

foreachRDD可以自定义将结果输出到外部系统,比如hbase,mysql,hdfs等。

对于数据库之类的连接,错误的写法是为每一条数据创建一个数据库连接,那样将会导致严重的性能问题。正确的用法是为每一个DStream的分区创建一个连接,这个分区的数据处理完毕后释放。

dstream.foreachRDD { rdd =>
  rdd.foreachPartition { 
  partitionOfRecords =>
    // 创建数据库连接池
    val connection = ConnectionPool.getConnection()
    //插入该分区中的每条数据
    partitionOfRecords.foreach(record => connection.send(record))
   //将connection返回到连接池
    ConnectionPool.returnConnection(connection)  // return to the pool for future reuse
  }
}

简易的示例代码

package com.lgh.sparkstreaming

import java.sql.DriverManager

import org.apache.spark.SparkConf
import org.apache.spark.streaming.dstream.DStream
import org.apache.spark.streaming.{Minutes, Seconds, StreamingContext}
import org.apache.spark.streaming.kafka.KafkaUtils

/**
  * Created by Administrator on 2017/8/23.
  */
object ForeachRDD {
  def main(args: Array[String]): Unit = {
    if (args.length < 4) {
      System.err.println("Usage: KafkaWordCount <zkQuorum> <group> <topics> <numThreads>")
      System.exit(1)
    }

    //参数分别为 zk地址,消费者group名,topic名 多个的话,分隔 ,线程数
    val Array(zkQuorum, group, topics, numThreads) = args
    //setmaster,local是调试模式使用
    val sparkConf = new SparkConf().setAppName("KafkaWordCount").setMaster("local[2]")
    val ssc = new StreamingContext(sparkConf, Seconds(2))
    ssc.checkpoint("checkpoint")

    //Map类型存储的是   key: topic名字   values: 读取该topic的消费者的线程数
    val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap

    //参数分别为StreamingContext,kafka的zk地址,消费者group,Map类型
    val kafkamessage = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap)
    //_._2取出kafka的实际消息流
    val lines=kafkamessage.map(_._2)

    val words = lines.flatMap(_.split(" "))
    val wordCounts: DStream[(String, Long)] = words.map(x => (x, 1L))
      .reduceByKey(_ + _)

    //以hbase为例,
    wordCounts.foreachRDD(
      rdd=>{
        rdd.foreachPartition(

          rddpartition=>{
            //创建mysql连接
             Class.forName("com.mysql.jdbc.Driver").newInstance
             val conn = DriverManager.getConnection("jdbc:mysql://127.0.0.1:3306/test", "username", "password")

            //使用conn插入数据
             rddpartition.foreach(record => {
               val prep = conn.prepareStatement("insert INTO  t1 (key, value) VALUES (?, ?) ")
               prep.setString(1, record._1)
               prep.setLong(2,record._2)
               prep.executeUpdate
             })
            // 关闭连接
           conn.close()
          }

        )
      }
    )

    ssc.start()
    ssc.awaitTermination()
  }
}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值