如何利用Spark提高批量插入Solr的效率

最新推荐文章于 2025-01-22 22:45:00 发布

亮亮-AC米兰

最新推荐文章于 2025-01-22 22:45:00 发布

阅读量6.6k

点赞数 1

分类专栏： Spark 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wl044090432/article/details/50834016

版权

本文介绍了如何使用Spark提高批量插入SolrCloud的效率，建议使用MapPartitions而不是Map来减少连接创建，并在Executor端初始化连接池，以保持长链接并控制插入频率，避免SolrCloud崩溃。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

有时候我们会碰到这样的场景：利用Spark批量插入数据。因为Spark相比MR编程更方便，更容易上手。因此接下来讲讲利用Spark批量插入数据时候的注意点。假设批量往SolrCloud里面插入数据。

1：利用MapPartitions针对每个分区的数据进行遍历插入，而不是利用Map针对每条数据进行插入

原因：当进行插入的时候，需要获取和SolrCloud的连接，如果利用Map针对每条数据进行插入的话，则需要获取N条连接(N为数据的总数)；如果利用MapPartitions进行插入的话，则只需要获取M条连接(M为分区的总数)

2：在Excutor端初始化1个链接池，每个Excutor端的链接从这个链接池获取。这样做的好处是：1）链接池保存着和SolrCloud的长链接，一旦打开，就不关闭，除非Excutor退出；2）链接池可以控制每个Excutor连接SolrCloud的链接数，防止Rdd分区过多的情况下，由于过高频繁的插入造成SolrCloud崩溃。

Java实例代码如下：

1）利用MapPartitions插入代码块：

//finalRdd为JavaRDD<SomeObjects>

最低0.47元/天解锁文章

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。