数据湖实操讲解【OSS 访问加速】第六讲:Hadoop/Spark 访问 OSS 加速

数据湖技术圈

本期导读  :【OSS 访问加速】第六讲

主题:Hadoop/Spark 访问 OSS 加速

讲师:流影,阿里巴巴计算平台事业部 EMR 技术专家

内容框架:

  • JindoFS SDK 介绍

  • Hadoop 使用 JindoFS SDK

  • Spark 使用 JindoFS SDK

  • 演示

直播回看链接:(5/6讲)

https://developer.aliyun.com/live/246811

1

JindoFS SDK介绍

  • JindoFS SDK 是一个简单易用面向 Hadoop/Spark 生态的 OSS 客户端,为阿里云 OSS 提供高度优化的 HadoopFileSystem 实现。

  • 通过 JindoFS SDK,可以在 Hadoop 环境中直接使用 oss://bucket/ 的方式访问阿里云 OSS 上的内容。

  • 例如:

为什么使用 JindoFS SDK

  • 优异的性能表现:和开源版本的 Hadoop-OSS-SDK 进行对比,各项操作性能均显著好于 Hadoop-OSS-SDK

  • 良好的兼容性:兼容市面上大部分 Hadoop 版本,JindoFS SDK 在 Hadoop2.3 及以上的版本上验证通过

  • 专业团队维护:阿里云 EMRHadoop 团队维护,JindoFS Hadoop SDK 在阿里云 EMR等产品中广泛使用

  • 功能更新快:及时跟进 OSS 最新特性和优化,版本更新及时。

2

Hadoop 使用 JindoFS SDK 访问 OSS

安装 jar 包

  • 下载最新的jar包 jindofs-sdk-x.x.x.jar,将sdk包安装到hadoop的classpath下。

配置 JindoFSOSS 实现类

  • 将 JindoFS OSS 实现类配置到Hadoop的core-site.xml中。

配置 OSSAccess Key

  • 将OSS的AccessKey、Access Key Secret、Endpoint等预先配置在Hadoop的core-site.xml中。

使用 JindoFSSDK 访问 OSS

用HadoopShell访问OSS,下面列举了几个常用的命令。

  • put操作:hadoop fs -put <path> oss://<bucket>/  

  • ls 操作:hadoop fs -ls oss://<bucket>/

  • mkdir操作:hadoopfs -mkdiross://<bucket>/<path>

  • rm操作:  hadoop fs rm oss://<bucket>/<path>

3

Spark 使用 JindoFS SDK 访问 OSS

在 Spark CLASSPATH 中添加 JindoFS SDK

  • 下载最新的jar包 jindofs-sdk-x.x.x.jar,将sdk包安装到 Spark的classpath下。

  • cp jindofs-sdk-${version}.jar $SPARK_HOME/jars/

配置 JindoFS SDK

全局配置:参考 Hadoop 配置

任务级别配置:spark-submit--conf

spark.hadoop.fs.AbstractFileSystem.oss.impl=com.aliyun.emr.fs.oss.OSS --conf 

spark.hadoop.fs.oss.impl=com.aliyun.emr.fs.oss.JindoOssFileSystem --conf spark.hadoop.fs.jfs.cache.oss.accessKeyId=xxx --conf spark.hadoop.fs.jfs.cache.oss.accessKeySecret=xxx --conf spark.hadoop.fs.jfs.cache.oss.endpoint=oss-cn-xxx.aliyuncs.com

访问 OSS

  • 完成配置之后,启动的 Spark 任务访问 OSS 默认就使用 JindoSDK 访问

4

演示

  • 1. 下载JindoFS SDK

  • 2. 将jar包拷贝到hadoop classpath

  • 3. 修改配置

  • 4. 演示 hadoop 命令

  • 5. 将jar包拷贝到 Spark${SPARK_HOME}/jars

  • 6. 演示 Spark 访问 OSS

点击文章下方阅读原文,直接观看第三课(5/6讲)视频回放,获取实例讲解~

相关资源

1.下载JindoFS SDK:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_download.md

2.Hadoop 使用 JindoFS SDK:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_sdk_how_to_hadoop.md

3.Spark 使用 JindoFS SDK:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/spark/jindosdk_on_spark.md


Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!


数据湖技术圈

长按扫码关注公众号

获取最新技术资讯

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值