【闲聊】大数据开发工作内容之回溯

最新推荐文章于 2024-05-21 11:40:29 发布

和风与影

最新推荐文章于 2024-05-21 11:40:29 发布

阅读量276

点赞数

分类专栏：大数据文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45545090/article/details/125212429

版权

大数据专栏收录该内容

76 篇文章 8 订阅

订阅专栏

今天再记录一下大数据开发的工作内容：回溯。回溯占工作比例比较大，说白了就是跑以前的数据。我今天开发了一个任务，而用户需要看一个月的数据，那我开发好之后，需要跑过去一个月的数据。

说起来好像很简单，事实上也不容易，并不是选好日期点了运行就能完事。一般还有如下步骤：

检查代码是否有需要改动？（例行任务和回溯任务可能有的代码需要改变）
回溯时并行度应该开多少？
开始回溯时要时刻盯着队列资源，队列资源多的时候可以增加并发。关于队列可以看之前的文章，关于 Yarn 队列如何进行调度。

yarn 资源调度器

其实在公司里，集群资源还是十分紧张的，并不是想要多少就要多少，所以要盯着队列资源，尽量在晚上 10 点前跑完任务，11 点还是进行回溯是会报警的，因为不能影响 0 点的例行任务。早上 8、9 点也是不能进行回溯的，不能影响例行任务的运行，例行任务是要在最晚产出时间之前必须跑完的，否则会影响用户使用和下游的任务。

跑大数据任务，总的感受是一切都能通过加机器解决，不过我的感受是 CPU 和内存资源还是比较短缺，毕竟公司也要考虑经费问题，考虑收益和投入的比例，所以在开发任务时需要合理规划资源消耗。后面写篇文章总结一下 SQL 任务的资源消耗以及资源参数如何设置。

欢迎点击此处关注公众号。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【闲聊】大数据开发工作内容之回溯

大数据开发工作内容之回溯。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。