关于数据倾斜的深度探讨？

亚当-麦当当

已于 2024-06-24 11:11:33 修改

阅读量1.2k

点赞数 44

分类专栏：性能调优文章标签：大数据性能优化数据库开发数据库数据仓库

于 2024-06-24 10:56:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_49811843/article/details/139918487

版权

温馨提示：

（内容较多，为避免读者逻辑混乱，请严格按照大纲目录逻辑浏览）

一、啥是数据倾斜？

数据倾斜是指在分布式数据处理系统（如 Hadoop、Spark）中，数据分布不均衡导致某些节点（或任务）处理的数据量远远大于其他节点（或任务）的现象。这会导致负载不均衡，降低整个系统的性能。具体来说，数据倾斜会引发以下问题：

任务执行时间长：由于部分节点处理的数据量过大，这些节点上的任务执行时间会远长于其他节点，导致整体作业时间延长。
资源浪费：大部分节点在完成其任务后需要等待少数节点完成任务，造成资源的低效利用。
内存溢出：处理数据量过大的节点可能会因为内存不足而导致任务失败或崩溃。

二、数据倾斜的表现

a）hadoop中数据倾斜的表现

（1）有⼀个或多个reduce任务卡住，卡在99.99%，⼀直不能结束。

（2）各种container报错OOM。

（3）异常的Reducer读写的数据量极⼤，⾄少远远超过其他正常的Reducer。

（4）伴随着数据倾斜，会出现任务被kill 等各种诡异的表现。

b）Hive中的数据倾斜

⼀般都发⽣在 Sql中group by 和 Join on 上，⽽且和数据逻辑绑定⽐较深。

c）Spark 中的数据倾斜

Spark中的数据倾斜，包括Spark Streaming 和SparkSQL，主要表现有以下⼏种：

Executor lost， OOM，Shuffle过程出错；Driver OOM；单个Executor 执⾏时间特别久，整体任务卡在某个阶段不能结束；正常运⾏的任务突然失败。

三、数据倾斜产⽣的原因及解决⽅法

a）key值分布不均

这包括空值以及单⼀key值或⼏个key值过多,这样的情况我们⼀般是打散计算，空值过滤或者将为空的 key 转变为字符串加随机数或纯随机数，将因空值⽽造成倾斜的数据分不到多个 Reducer。

b）建表时考虑不周

例⼦：⽐如我公司刚开始是就有两张表，⼀张是user⽤户表，⼀张是log⽇志表，为两个不同部⻔创建的，两表关联字段为user_id，但user表的user_id 为 int类型，log表⾥的user_id 为string类型，这时候直接关联的话就会产⽣数据倾斜，那我们可以使⽤cast 函数间int类型的字段转为 string类型。

c）业务数据量激增

最低0.47元/天解锁文章

亚当-麦当当

关注

44
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
关于数据倾斜的深度探讨？

数据倾斜是指在分布式数据处理系统（如 Hadoop、Spark）中，数据分布不均衡导致某些节点（或任务）处理的数据量远远大于其他节点（或任务）的现象。这会导致负载不均衡，降低整个系统的性能。具体来说，数据倾斜会引发以下问题
复制链接

扫一扫

专栏目录

亚当-麦当当 CSDN认证博客专家 CSDN认证企业博客

码龄4年

67: 原创

34万+: 周排名

1万+: 总排名

7万+: 访问

: 等级

2328: 积分

1387: 粉丝

1614: 获赞

28: 评论

864: 收藏

私信

关注

热门文章

分类专栏

用户画像 1篇
Spark 2篇
题目挖掘 6篇
性能调优 1篇
数据分析 7篇
hadoop 3篇
FineReport 2篇
ZooKeeper 1篇
人工智能 1篇
Python 6篇
presto 1篇
hive 14篇
数据仓库 3篇
DolphinScheduler 1篇
PostgreSQL 1篇
DataX 1篇
Oracle 3篇
yarn 1篇

最新评论

华为面试题及答案——机器学习(二)
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
大数据—数据分析概论
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
大数据—数据分析概论
亚当-麦当当: Thank you
大数据—数据分析概论
征途黯然.: The depth of knowledge about 大数据数据分析概论 is astonishing. With a deeper understanding, thanks for sharing!
大数据—数据分析概论
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。