spark streaming job数据输出数目不准确问题排查记录

最新推荐文章于 2022-08-20 08:29:50 发布

xueba207

最新推荐文章于 2022-08-20 08:29:50 发布

阅读量1.3k

点赞数

分类专栏： Spark 文章标签： speculate streaming

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xueba207/article/details/50371222

版权

详细描述

2015-12-18日提交测试，发现spark streaming job数据进入条数与输出的条数不一致:

发200条数据，streaming job 接收200，处理后输出250。

问题分析

排查了job代码，以及数据输出逻辑，均无发现问题。在查看job执行情况时发现一个很奇怪的task状态，见下图:

task执行情况

发现index-0的task产生了 speculative状态的task，因此猜测 spark 全局默认配置发生了修改，于是查看spark-defaults.conf配置，发现speculation的配置被修改：

spark.speculation true

该参数会自动判断运行速度相对较慢的task，并re-launch此task，导致一批数据有两个task存在，从而输出的数据也是task*2。

举例

spark streaming job接收到100条数据，数据partition为2，因此job生成两个task处理数据，数据被均分到两个partition中，

part-0:50 -> launch task-0 -> output to topic_tmp part-0

part-1:50 -> launch task-1 -> output to topic_tmp part-1

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark streaming job数据输出数目不准确问题排查记录

详细描述2015-12-18日提交测试，发现spark streaming job数据进入条数与输出的条数不一致: 发200条数据，streaming job 接收200，处理后输出250。问题分析排查了job代码，以及数据输出逻辑，均无发现问题。在查看job执行情况时发现一个很奇怪的task状态，见下图:发现index-0的task产生了 speculative状态的task，因此猜测 s
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。