【Spark实战系列】sparkstreaming 消费 kafka0.10 中的 LocationStrategies 和 ConsumerStrategies 代表的是什么含义?

最新推荐文章于 2022-09-15 23:24:42 发布

JasonLee实时计算

最新推荐文章于 2022-09-15 23:24:42 发布

阅读量5.8k

点赞数 3

分类专栏： Spark 实战系列文章标签： sparkstreaming

本文链接：https://blog.csdn.net/xianpanjia4616/article/details/88531365

版权

Spark 实战系列专栏收录该内容

41 篇文章 289 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

LocationStrategies

新的Kafka使用者API将预先获取消息到缓冲区。因此，出于性能原因，Spark集成将缓存的消费者保留在执行程序上（而不是为每个批处理重新创建它们），并且更喜欢在具有适当使用者的主机位置上安排分区，这一点很重要。
在大多数情况下，您应该使用LocationStrategies.PreferConsistent，如上所示。这将在可用执行程序之间均匀分配分区。如果您的执行程序与Kafka代理在同一主机上，请使用PreferBrokers，它更愿意为该分区安排Kafka领导者的分区。最后，如果分区之间的负载有明显偏差，请使用PreferFixed。这允许您指定分区到主机的显式映射（任何未指定的分区将使用一致的位置）。
消费者的缓存的默认最大大小为64.如果您希望处理超过（64 *个执行程序数）Kafka分区，则可以通过spark.streaming.kafka.consumer.cache.maxCapacity更改此设置。
如果要禁用Kafka使用者的缓存，可以将spark.streaming.kafka.consumer.cache.enabled设置为false。可能需要禁用缓存来解决SPARK-19185中描述的问题。一旦SPARK-19185解决，可以在Spark的更高版本中删除此属性。
缓存由topicpartition和group.id键入，因此每次调用createDirectStream时都要使用单独的group.id。

ConsumerStrategies

新的Kafka消费者API有许多不同的方法来指定主题，其中一些需要相当大的后对象实例化设置。 ConsumerStrategies提供了一种抽象，即使从检查点重新启动后，Spark也可以获得正确配置的消费者。
ConsumerStrategies.Subscribe，如上所示，允许您订阅固定的主题集合。 SubscribePattern允许您使用正则表达式来指定感兴趣的主题。请注意，与0.8集成不同，使用Subscribe或SubscribePattern应响应在正在运行的流期间添加分区。最后，Assign允许您指定固定的分区集合。所有这三个策略都重载了构造函数，允许您指定特定分区的起始偏移量。
如果您具有上述选项无法满足的特定使用者设置需求，则ConsumerStrategy是您可以扩展的公共类。

如果有写的不对的地方,欢迎大家指正,如果有什么疑问,可以加QQ群:340297350 谢谢

JasonLee实时计算

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
4
评论
【Spark实战系列】sparkstreaming 消费 kafka0.10 中的 LocationStrategies 和 ConsumerStrategies 代表的是什么含义?

LocationStrategies新的Kafka使用者API将预先获取消息到缓冲区。因此，出于性能原因，Spark集成将缓存的消费者保留在执行程序上（而不是为每个批处理重新创建它们），并且更喜欢在具有适当使用者的主机位置上安排分区，这一点很重要。在大多数情况下，您应该使用LocationStrategies.PreferConsistent，如上所示。这将在可用执行程序之间均匀分配分区。...
复制链接

扫一扫