【Gluten】Spark 的向量化执行引擎框架 Gluten

最新推荐文章于 2025-03-23 08:30:00 发布

NEUpanning

最新推荐文章于 2025-03-23 08:30:00 发布

阅读量2.1k

点赞数 19

文章标签： spark 大数据分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45857154/article/details/137454385

版权

Gluten项目通过整合ApacheSpark与多种Native后端（如Velox、Clickhouse等），加速计算并支持数据格式转换，提供数据传输和内存管理优化。其FallbackProcessing机制确保兼容性，而glutenshuffle专注于列式数据shuffle。对于调试，支持跨Spark和Native库的排查。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Gluten 项目主要用于“粘合” Apache Spark 和作为 Backend 的 Native Vectorized Engine。Backend 的选项有很多，目前在 Gluten 项目中已经明确开始支持的有 Velox、Clickhouse 和 Apache Arrow。通过使用Native backend 执行计算，加速 Spark 执行速度，目前在TPCH 测试中使用 velox backend 得到了最多3.6倍加速。下图为 Gluten 整体架构
在这里插入图片描述

plan conversion

spark physical plan 作为输入，使用 substrait 将其转换为 substrait plan，substrait plan作为一个统一的执行计划传递给不同的 native library，在不同的 library 中执行相同的的 pipeline，使用 library自己的算子执行 pipeline
在这里插入图片描述

buffer passing & sharing

gluten 提供两种方法来进行 spark JVM 和 native engine 之间的数据传输，如下图所示

下图中的绿线。使用 apache arrow 作为内存数据格式，将 velox 中的 velox 格式数据转换为 arrow 格式，使用 arrowColumnarVec

最低0.47元/天解锁文章

博客等级

码龄6年

39
原创

300
点赞

328
收藏

241
粉丝

关注

私信

热门文章

上一篇：: spark 数据序列化和内存调优（翻译）

下一篇：: Velox Types介绍和源码解析

最新评论

ES集群状态为红色但没有处于Unassigned状态的主分片问题排查
CSDN-Ada助手: 恭喜您撰写第17篇博客！标题很引人注目，内容也很有价值。解决ES集群状态为红色的问题是一个挑战，而您对于没有处于Unassigned状态的主分片的排查方法进行了深入探讨，这对那些遇到类似问题的读者非常有帮助。接下来，我建议您可以考虑分享更多关于ES集群状态异常的排查技巧，或者深入探讨其他与ES相关的主题。你的经验和知识无疑会对许多人有所帮助。希望您能继续保持创作，并继续分享您的宝贵见解。谦虚地说，我期待着您的下一篇博客！
【ElasticSearch】ES集群启动时master内存打满问题排查
CSDN-Ada助手: 恭喜您撰写了第18篇博客！标题看起来非常有吸引力，我对您解决ES集群启动时master内存打满问题的经验十分感兴趣。您的文章内容一定对使用ElasticSearch的读者非常有帮助。接下来，我建议您在未来的博客中可以探讨一些与ElasticSearch集群相关的高级主题，例如优化查询性能或者处理大规模数据的技巧。期待您继续分享有关ElasticSearch的知识，谢谢！
【ElasticSearch】TCP keep-alive机制与ElasticSearch的keep-alive机制
CSDN-Ada助手: 恭喜您撰写了第19篇博客！对于ElasticSearch的TCP keep-alive机制与ElasticSearch的keep-alive机制的探讨让我受益匪浅。不过，我觉得如果能够加入一些实际案例或者使用经验会更加生动和实用。希望您在下一篇博客中能够继续分享您的见解，并且期待您的更多精彩内容！
ElasticSearch客户端迁移到Rest Client后，ElasticSearch节点内存打满问题排查
CSDN-Ada助手: 恭喜您撰写了第16篇博客！标题“ElasticSearch客户端迁移到Rest Client后，ElasticSearch节点内存打满问题排查”非常引人注目。您在博客中详细解释了如何排查ElasticSearch节点内存打满的问题，这对于遇到类似问题的读者来说无疑是非常有帮助的。我想对您的持续创作表示赞赏，您的博客内容一直都非常有深度和实用性。接下来，我建议您考虑分享一些关于ElasticSearch的性能优化技巧或者最佳实践，这将进一步丰富您的博客内容，并且对读者来说也是一个非常有价值的主题。期待您未来更多的博客文章，谢谢您的分享！
集群qorum数量master-eligible节点掉线解决方法
CSDN-Ada助手: 云原生入门技能树或许可以帮到你：https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。