数据湖实操讲解【JindoFS 缓存加速】第十四讲：指定表和分区来预先缓存，查询分析更高效...

最新推荐文章于 2021-07-04 20:00:00 发布

Apache Spark中国社区

最新推荐文章于 2021-07-04 20:00:00 发布

阅读量227

点赞数

文章标签：大数据 hadoop spark 分布式 java

原文链接：https://developer.aliyun.com/live/246996

版权

数据湖技术圈

本期导读：【 JindoFS 缓存加速】第十四讲

主题：指定表和分区来预先缓存，查询分析更高效

讲师：抚月，阿里巴巴计算平台事业部开源大数据平台技术专家

内容框架：

背景介绍
功能介绍
使用方法
实操演示

直播回看链接：（14讲）

https://developer.aliyun.com/live/246996

背景介绍

传统集群架构：

存储计算一体
存储量与计算量无法始终匹配
存储无法水平扩展

存算分离架构：

计算资源动态伸缩
海量的存储空间
稳定可靠的存储服务
计算节点剩余的磁盘、内存资源可以用于缓存加速

指定表和分区来预先缓存：

TPC-DS 生成的标准数仓数据：

维表：例 item、store ；经常访问，可预先缓存
事实表：采用时间分区

功能介绍

JindoFS 缓存模式架构图：

架构介绍：

Jindo Namespace Service：JindoFS 元数据管理以及 Storage 服务的管理
Jindo Storage Service：用户数据的管理包含本地数据的管理和 OSS 上数据的管理
Jindo SDK 客户端：所有上层计算引擎通过 JindoFS SDK 提供的客户端访问 indoFS 文件系统，从而实现对后端存储实现缓存加速

计算服务通过 Jindo SDK 访问数据，Jindo SDK 从 Jindo Namespace Service 查询缓存位置信息，然后向集群中的 Jindo Storage Service 读取缓存数据，如果命中缓存直接返回；如果没有命中缓存，则从 OSS 读取数据，并将缓存写入 Jindo Storage Service，供下次使用。

使用方法

部署缓存服务：

下载最新 Release包 b2smartdata-x.x.x.tar.gz，解压并部署到集群所有节点上
修改配置文件 conf/bigboot.cfg

修改 sbin/nodes，配置所有 storage service 的节点列表
启动所有服务 ./sbin/start-service.sh

参考网址：

https://github.com/aliyun/alibabacloud-jindofs/blob/master/docs/jindofs_cache_mode_deploy.md

部署 Jindo SDK：

安装 jar 包：下载最新的 jar 包 jindofs-sdk-x.x.x.jar，在所有 Hadoop 节点安装。
cp ./jindofs-sdk-*.jar/share/hadoop/hdfs/
lib/jindofs-sdk.jar
配置 JindoFS 实现类：将JindoFS 实现类配置到 Hadoop 的 core-site.xml 中
将 OSS 的 Access Key、Access Key Secret、Endpoint 等预先配置在 Hadoop 的core-site.xml 中。