数据湖实操讲解【JindoFS 缓存加速】第十四讲:指定表和分区来预先缓存,查询分析更高效...

数据湖技术圈

本期导读  :【 JindoFS 缓存加速】第十四讲

主题:指定表和分区来预先缓存,查询分析更高效

讲师:抚月,阿里巴巴计算平台事业部 开源大数据平台 技术专家

内容框架:

  • 背景介绍

  • 功能介绍

  • 使用方法

  • 实操演示

直播回看链接:(14讲)

https://developer.aliyun.com/live/246996

1

背景介绍  

传统集群架构:

  • 存储计算一体

  • 存储量与计算量无法始终匹配

  • 存储无法水平扩展

存算分离架构:

  • 计算资源动态伸缩

  • 海量的存储空间

  • 稳定可靠的存储服务

  • 计算节点剩余的磁盘、内存资源可以用于缓存加速

指定表和分区来预先缓存:

TPC-DS 生成的标准数仓数据:

  • 维表:例 item、store ;经常访问,可预先缓存

  • 事实表:采用时间分区

2

功能介绍  

JindoFS 缓存模式架构图:

架构介绍:

  • Jindo Namespace Service:JindoFS 元数据管理以及 Storage 服务的管理

  • Jindo Storage Service:用户数据的管理包含本地数据的管理和 OSS 上数据的管理

  • Jindo SDK 客户端:所有上层计算引擎通过 JindoFS SDK 提供的客户端访问 indoFS 文件系统,从而实现对后端存储实现缓存加速

    

        计算服务通过 Jindo SDK 访问数据,Jindo SDK 从 Jindo Namespace Service 查询缓存位置信息,然后向集群中的 Jindo Storage Service 读取缓存数据,如果命中缓存直接返回;如果没有命中缓存,则从 OSS 读取数据,并将缓存写入 Jindo Storage Service,供下次使用。

3

使用方法  

部署缓存服务:

  • 下载最新 Release包 b2smartdata-x.x.x.tar.gz,解压并部署到集群所有节点上

  • 修改配置文件 conf/bigboot.cfg

     

  • 修改 sbin/nodes,配置所有 storage service 的节点列表

  • 启动所有服务 ./sbin/start-service.sh

参考网址:

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md

部署 Jindo SDK:

  • 安装 jar 包:下载最新的 jar 包 jindofs-sdk-x.x.x.jar,在所有 Hadoop 节点安装。
    cp ./jindofs-sdk-*.jar/share/hadoop/hdfs/
    lib/jindofs-sdk.jar

  • 配置 JindoFS 实现类:将JindoFS 实现类配置到 Hadoop 的 core-site.xml 中

  • 将 OSS 的 Access Key、Access Key Secret、Endpoint 等预先配置在 Hadoop 的core-site.xml 中。

指定表和分区来预先缓存:

   cache 命令和 uncache命 令:


4

实操演示  

  点击文章下方阅读原文,直接观看第14讲视频回放,获取讲师实例讲解~


Github链接:

https://github.com/aliyun/alibabacloud-jindofs


不错过每次直播信息、探讨更多数据湖 JindoFS+OSS 相关技术问题,欢迎扫码加入钉钉交流群!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值