数据湖实操讲解【JindoTable 计算加速】第十九讲：Spark 对 OSS 上的 Parquet 数据进行查询加速...

最新推荐文章于 2024-01-28 18:23:25 发布

Apache Spark中国社区

最新推荐文章于 2024-01-28 18:23:25 发布

阅读量354

点赞数 1

文章标签：大数据人工智能 python spark 数据库

原文链接：https://developer.aliyun.com/live/247100

版权

数据湖技术圈

本期导读：【 JindoTable 计算加速】第十九讲

主题：Spark 对 OSS 上的 Parquet 数据进行查询加速

讲师：流影，阿里巴巴计算平台事业部 EMR 技术专家

内容框架：

JindoFS 计算加速介绍
使用 JindoFS 计算加速
演示

直播回看链接：（19讲）

https://developer.aliyun.com/live/247100

JindoFS 计算加速

背景介绍

当前数据湖市场规模正在飞速增长，随着数据规模的增长，基于高性能的数据湖分析场景也在逐渐增加。当前很多数据湖架构基于对象存储，相对于本地存储，其性能受到网络带宽和负载机器的影响，存在性能瓶颈和波动，同时因为远端读取 OSS 单次 IO 比较慢,在列存等一些随机读比较多的场景,性能差距尤其明显(无法预读)。在此背景下,稳定且高性能的数据读取方案已经迫在眉睫。

JindoFS 计算加速

JindoFS 通过 Native Engine ，能够加速存储在 JindoFS/OSS 上面的 ORC/Parquet 文件, 配合 filter pushdown，在 Spark/Hive/Presto 上明显的提升查询速度。

JindoFS 计算加速架构

TPCDS 5T 测试

TPCDS 5T 规模的 Spark 测试，使用 JindoFS 计算加速方案，平均 query 查询性能整体上较 Spark + parquet 的方案提升22.9%( GeoMean)，总时间缩短从8158秒缩短到7309秒，下降12%.

参考文章：

《 tpcds 5t 查询性能报告》
https://github.com/aliyun/alibabacloud-jindodata/blob/master/docs/comparisons/jindotable_native_vs_spark_parquet.md

q96 查询对比

spark 查询:

JindoFS 查询加速 :

结论：下推 filter 之后读取相同数据量时间缩短近一倍。

使用 JindoFS 计算加速

Spark 使用 JindoFS 计算加速读取 Parquet 数据

前提

已创建 EMR-3.35.0 及后续版本或 EMR-4.9.0 及后续版本，且 Parquet 文件已存放至JindoFS 或 OSS

Spark 使用 JindoFS 计算加速

添加配置：
spark.sql.extensions=com.aliyun.emr.sql.JindoTableExtension

演示

演示内容：

Spark 2.4 使用 JindoFS 计算加速
Spark 2.4 任务界面查看计算加速相关信息

参考文章：

《计算加速使用文档》
https://help.aliyun.com/document_detail/213329.html?spm=a2c4g.11186623.6.1123.5d04196bvr9MzP

点击文章下方阅读原文，直接观看第19讲视频回放，获取讲师实例讲解~

⭐Github链接：

https://github.com/aliyun/alibabacloud-jindofs

不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题，欢迎扫码加入钉钉交流群！

Apache Spark中国社区

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据湖实操讲解【JindoTable 计算加速】第十九讲：Spark 对 OSS 上的 Parquet 数据进行查询加速...

数据湖技术圈本期导读：【 JindoTable 计算加速】第十九讲主题：Spark 对 OSS 上的 Parquet 数据进行查询加速讲师：流影，阿里巴巴计算平台事业部 EMR 技术...
复制链接

扫一扫