Spark+Alluxio性能调优十大技巧

最新推荐文章于 2021-11-21 21:58:32 发布

weixin_44387107

最新推荐文章于 2021-11-21 21:58:32 发布

阅读量236

点赞数

分类专栏：大数据文章标签：大数据大数据学习大数据入门数据分析数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44387107/article/details/89026981

版权

由于统一访问对象存储（如S3）和HDFS数据的场景的出现和普及，Apache Spark结合Alluxio的大数据栈越来越受欢迎。此外，越来越流行的计算与存储分离的架构导致计算端查询延迟增大。因此，Alluxio常被用作贴近计算端的热数据存储以提高性能。为了能够获得最佳性能，用户需要像使用其他技术栈组合一样遵循最佳的实战经验。本文介绍了在Alluxio上运行Spark时,对于实际工作负载性能调优的十大技巧。

常用链接

Alluxio项目官网
Alluxio Inc网站
Alluxio在各大厂用例
关注Alluxio微信公众号: Alluxio_China

关于数据本地性的技巧

想要在大数据这个领域汲取养分，让自己壮大成长。分享方向，行动以前先分享下一个大数据交流分享资源群 740041381 ，欢迎想学习，想转行的，进阶中你加入学习。

数据本地性就是尽量将计算移到数据所在的节点上进行，避免数据在网络上的传输。分布式数据并行环境下，数据的本地性非常重要。提高数据本地性能够极大地提升Spark作业的性能。如果需要计算的数据存储在节点本地，那么Spark任务可以直接以内存速度（当配置ramdisk时）从本地Alluxio worker中读取Alluxio中的数据，而不必通过网络进行数据传输。首先我们要介绍的几个调优技巧是关于数据本地性方面的。

1. 检查并确认Spark作业读取Alluxio时的数据本地性

当Spark worker与Alluxio worker同置部署(co-locate)在同一节点上时，Alluxio能够通过支持短路读写为Spark计算任务提供最佳的性能。用户有多种方法检查I/O请求是否实际由Alluxio短路读/写提供数据访问服务，具体方法如下：

方法1：当运行Spark任务时，观察监控页面Alluxio metrics UI page上的Short-circuit reads和From RemoteInstance的两个指标。此外，还可以观察cluster.BytesReadAlluxioThroughp

最低0.47元/天解锁文章

weixin_44387107

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark+Alluxio性能调优十大技巧

由于统一访问对象存储（如S3）和HDFS数据的场景的出现和普及，Apache Spark结合Alluxio的大数据栈越来越受欢迎。此外，越来越流行的计算与存储分离的架构导致计算端查询延迟增大。因此，Alluxio常被用作贴近计算端的热数据存储以提高性能。为了能够获得最佳性能，用户需要像使用其他技术栈组合一样遵循最佳的实战经验。本文介绍了在Alluxio上运行Spark时,对于实际工作负载性能调优的...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。