数据湖实操讲解【OSS访问加速】第十讲:Impala 如何高效查询 OSS 数据

数据湖技术圈

本期导读  :【OSS 访问加速】第十讲

主题:Impala 如何高效查询 OSS 数据

讲师:流影,阿里巴巴计算平台事业部 EMR 技术专家

内容框架:

  • 背景介绍

  • Impala 使用 JindoSDK

  • 具体演示

直播回看链接:(9/10讲)

https://developer.aliyun.com/live/246875

1

背景介绍

Apache Impala 介绍

能够对存储在 Hadoop 集群的 PB 级数据进行快速 SQL 查询分析的分布式 MPP 查询框架

使用 JindoSDK 高效查询 OSS 数据

  • JindoFS SDK 是一个简单易用面向 Hadoop/Spark 生态的 OSS 客户端,为阿里云 OSS  提供高度优化的 Hadoop FileSystem 实现。

  • 通过 JindoFS SDK,可以在 Hadoop 环境中直接使用 oss://bucket/ 的方式访问阿里云 OSS 上的内容。

2

Impala 使用 JindoSDK

1、安装 jar 包

下载最新的jar包 jindofs-sdk-x.x.x.jar,将 sdk 包安装到 Impala 的 lib 下。

  • 下载链接:https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md

  • cp jindofs-sdk-${version}.jar $IMPALA_HOME/lib/


2、配置 JindoFSOSS 实现类

配置 IMPALA 使用的 core-site.xml 配置 JindoFS SDK 访问OSS

3、配置 OSS Access Key

将 OSS 的Access Key、Access Key Secret、Endpoint 等预先配置在 Hadoop 的 core-site.xml 中

4、使用 JindoFSSDK 访问 OSS

3

具体演示

演示逻辑

  • 下载 JindoFSSDK

  • 将 jar 包拷贝到 $IMPALA_HOME/lib/

  • 修改 JindoSDK 配置

  • 演示 Impala 加载和查询 OSS 表

⭐点击文章下方阅读原文,直接观看第9/10讲视频回放,获取讲师实例讲解~

相关资源

  • 下载 JindoFS SDK:

    https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md

  • Impala 使用 JindoSDK:

    https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/impala/jindosdk_on_impala.md


Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!


数据湖技术圈

长按扫码关注公众号

获取最新技术资讯

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值