Spark中foreachRDD的正确使用

在Spark中,使用`foreachRDD`处理数据时,应避免在Driver创建连接对象导致序列化错误,以及为每条记录创建连接影响性能。正确做法是在Worker上创建连接,或者使用连接池为每个RDD分区分配一个连接,以提高效率和性能。
摘要由CSDN通过智能技术生成

常出现的使用误区:
误区一:在driver上创建连接对象(比如网络连接或数据库连接)
    如果在driver上创建连接对象,然后在RDD的算子函数内使用连接对象,那么就意味着需要将连接对象序列化后从driver传递到worker上。而连接对象(比如Connection对象)通常来说是不支持序列化的,此时通常会报序列化的异常(serialization errors)。因此连接对象必须在worker上创建,不要在driver上创建。

dstream.foreachRDD { rdd =>
  val connection = createNewConnection()  // 数据库连接在driver上执行
  rdd.foreach { record =>
    connection.send(record) // 在worker上执行
  }
}

误区二:为每一条记录都创建一个连接对象
    通常来说,连接对象的创建和销毁都是很消耗时间的。因此频繁地创建和销毁连接对象,可能会导致降低spark作业的整体性能和吞吐量。

dstream.foreachRDD { rdd =>
  rdd.foreach { record =>
    val connection = createNewConnection() //每插入一条数据,创建一个连接
    connection.send(record)
    connection.close()
  }
}

    比较正确的做法是:对DStream中的RDD,调用foreachPartition,对RDD中每个分区创建一个连接对象&#x

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值