关于云原生分布式计算和存储引擎JindoFS，看这一篇就够了

最新推荐文章于 2024-04-15 15:11:37 发布

Apache Spark中国社区

最新推荐文章于 2024-04-15 15:11:37 发布

阅读量1.6k

点赞数

原文链接：https://developer.aliyun.com/article/754257?groupCode=aliyunemr

版权

Jindo 的由来
EMR Jindo 是阿里云基于 Apache Spark / Apache Hadoop 在云上定制的分布式计算和存储引擎。Jindo 原是内部的研发代号，取自筋斗(云)的谐音，EMR Jindo 在开源基础上做了大量优化和扩展，深度集成和连接了众多阿里云基础服务。阿里云 EMR (E-MapReduce) 在 TPC 官方提交的 TPCDS 成绩，也是使用 Jindo 提交的。

以上摘自【JindoFS概述：云原生的大数据计算存储分离方案】
阿里巴巴计算平台事业部 EMR 技术专家诚历向我们阐述了 Jindo FS的前世今生。

JindoFS 介绍
JindoFS 主要包含两个服务组件：Namespace的服务以及Storage 服务，Namespace服务主要JindoFS 元数据管理以及 Storage 服务的管理， Storage 服务主要负责用户数据的管理包含本地数据的管理和OSS上数据的管理， JindoFS是云原生的文件系统，可以提供本地存储的性能以及OSS的超大容量。

以上摘自【JindoFS解析 - 云上大数据高性能数据湖存储方案】
阿里巴巴计算平台事业部EMR团队技术专家辰石在本文中介绍了EMR Jindo 的技术存储分离方案

多样的存储选择
在阿里云上，大数据存储主要有三种选择，分别为Hadoop HDFS、Alibaba HDFS和OSS。Hadoop HDFS有三种存储方式，EBS云盘存储数据可靠，但是后台有多个数据副本，因此成本较高，同时通过网络获取数据性能较低；D1本地磁盘以及I1/I2本地词盘性能比较高，成本也比较低，但是数据容易丢失，并且运维成本较高。另外一种选择是Alibaba HDFS，这种方式数据可靠，成本中等，并且数据全部通过网络传输，没有本地计算。OSS标准存储经过阿里巴巴的改造和优化之后可以直接在Hadoop中进行读写，这就是所谓的NativeOSS，NativeOSS存储数据可靠，成本较低，并且通用性比较好，但是性能比较低。因此，进一步在NativeOSS上进行了强化，实现了JindoFS，JindoFS做到了数据可靠，成本较低，性能高并且通用性较好，但是需要额外的存储成本。

以上摘自【助力云上开源生态 - 阿里云开源大数据平台的发展】
在2019杭州云栖大会大数据生态专场上，阿里巴巴高级产品专家雷飙为大家分享了阿里云的大数据生态发展现状。

EMR JindoFS背景
计算存储分离已经成为云计算的一种发展趋势。在计算存储分离之前，普遍采用的是传统的计算存储相互融合的架构（下图左侧），但是这种架构存在一定的问题，比如在集群扩容的时候会面临计算能力和存储能力相互不匹配的问题。用户在某些情况下只需要扩容计算能力或者存储能力，而传统的融合架构不能满足用户的这种需求，进行单独的扩充计算或者存储能力；其次在缩容的时候可能会遇到人工干预，人工干预完后需要保证数据在多个节点中同步，而当有多个副本需要同步时候，可能会造成的数据丢失。而计算存储分离架构（下图右侧）则可以很好的解决这些问题，使得用户只需要关心整个集群的计算能力。

以上摘自【JindoFS: 云上大数据的高性能数据湖存储方案】
在2019杭州云栖大会大数据生态专场，阿里巴巴计算平台事业部EMR团队技术专家辰石向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构

Spark Relational Cache特点
阿里云EMR是一个开源大数据解决方案，目前EMR上面已经集成了很多开源组件，并且组件数量也在不断的增加中。EMR下层可以访问各种各样的存储，比如对象存储OSS、集群内部自建的HDFS以及流式数据等。用户可以利用EMR处理海量数据和进行快速分析，也能够支持用户在上面做机器学习以及数据清洗等工作。EMR希望能够支撑非常大的业务数据量，同时也希望能够在数据量不断增长的时候，能够通过集群扩容实现快速数据分析。
阿里巴巴的EMR Spark对于1T数据的构建时间只需要1小时。

以上摘自【Spark Relational Cache实现亚秒级响应的交互式分析】
在2019杭州云栖大会大数据生态专场上，阿里巴巴技术专家健身为大家分享了阿里云EMR的Spark Relational Cache实现亚秒级响应的交互式分析。

EMR-Jindo：云原生高效数据分析引擎
下图展示了TPC-DS的基准测试报告，可以发现在2019年3月份10TB的测试中，性能指标得分是182万左右，成本是0.31 USD；而2019年十月份同样的测试性能指标得分已经变成526万，成本下降到0.53 CNY，也就是说经过半年左右性能提升了2.9倍，成本缩减到原来的四分之一。同时阿里巴巴还成为了首个提交TPC-DS测试100TB测试报告的厂商。这些成绩的背后是EMR-Jindo引擎的支持。

以上摘自【EMR 打造高效云原生数据分析引擎】
在2019杭州云栖大会大数据技术专场，阿里云阿里巴巴计算平台事业部 EMR 技术专家辛庸向大家分享了如何基于开源体系如何打造云上数据分析平台E-MarReduce（EMR）、EMR-Jindo 引擎背后的相关技术以及以 EMR-Jindo 为核心的云上大数据架构方案。

首个通过TPC认证的公共云产品
今年3月份，E-MapReduce成为全球首个通过TPC认证的公共云产品。2019年9月，E-MapReduce新版本在TPC-DS 10TB benchmark中再次勇夺第一，性能达到5,261,414 QphDS，比之前最好成绩提升19%，并且将单位查询成本降低38%。同时，E-MapReduce首次将TPC-DS数据集规模拓展至100TB，性能达到14,861,137 QphDS，100TB的数据规模是竞争对手产品最大处理能力的10倍。

以上摘自【阿里云大数据+AI技术沙龙上海站回顾 | 揭秘TPC-DS 榜单第一名背后的强大引擎】
EMR 团队在国内运营最大的 Spark 社区，本次分享，揭秘TPC-DS 榜单第一名背后的强大引擎，探索Pyboot如何打通大数据生态，一同学习业内最新的存储方案和机器学习平台。

JindoFS系列直播【Hadoop Job committer 的演化和发展】

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分，为分布式任务的写入提供一致性的保证，阿里云智能EMR团队高级技术专家司麟本次分享主要介绍Job Committer的演进历史，以及社区和EMR在S3/OSS等云存储上的最新进展。

JindoFS系列直播【关于 JindoFS 最新的 OTS 方案】

阿里巴巴计算平台事业部EMR团队技术专家辰石，在直播中向我们介绍JindoFS的元数据的后端演化。包括JindoFS的架构以及使用场景、JindoFS 元数据的不同的后端支持，以及JindoFS 在云上环境如何支持 OTS 作为元数据后端。

JindoFS系列直播【存储计算分离场景的计算适应优化】

阿里云EMR技术专家健身，会在本次分享中介绍云上大数据处理的存储计算分离特征，分析传统大数据处理中数据本地化与存储计算分离场景的区别，以及在存储计算分离场景中阿里云EMR的相关优化。

JindoFS使用文档

https://help.aliyun.com/document_detail/141542.html

JindoFS介绍

https://help.aliyun.com/document_detail/141534.html

https://help.aliyun.com/document_detail/141535.html

一张图看懂JindoFS

EMR钉钉产品交流群：

Apache Spark技术交流社区公众号，微信扫一扫关注

Apache Spark中国社区

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
关于云原生分布式计算和存储引擎JindoFS，看这一篇就够了

Jindo 的由来EMR Jindo 是阿里云基于 Apache Spark / Apache Hadoop 在云上定制的分布式计算和存储引擎。Jindo 原是内部的研发代号，取自筋斗...
复制链接

扫一扫