基于JindoFS+OSS构建高效数据湖

最新推荐文章于 2024-03-11 16:11:31 发布

阿里云技术

最新推荐文章于 2024-03-11 16:11:31 发布

阅读量297

点赞数

文章标签：阿里云

本文链接：https://blog.csdn.net/weixin_43970890/article/details/108665413

版权

为什么要构建数据湖

大数据时代早期，Apache HDFS 是构建具有海量存储能力数据仓库的首选方案。随着云计算、大数据、AI 等技术的发展，所有云厂商都在不断完善自家的对象存储，来更好地适配 Apache Hadoop/Spark 大数据以及各种 AI 生态。由于对象存储有海量、安全、低成本、高可靠、易集成等优势，各种 IoT 设备、网站数据都把各种形式的原始文件存储在对象存储上，利用对象存储增强和拓展大数据 AI 也成为了业界共识，Apache Hadoop 社区也推出了原生的对象存储“Ozone”。从 HDFS 到对象存储，从数据仓库到数据湖，把所有的数据都放在一个统一的存储中，也可以更加高效地进行分析和处理。

对于云上的客户来说，如何构建自己的数据湖，早期的技术选型非常重要，随着数据量的不断增加，后续进行架构升级和数据迁移的成本也会增加。在云上使用 HDFS 构建大规模存储系统，已经暴露出来不少问题。HDFS 是 Hadoop 原生的存储系统，经过 10 年来的发展，HDFS 已经成为大数据生态的存储标准，但我们也看到 HDFS 虽然不断优化，但是 NameNode 单点瓶颈，JVM 瓶颈仍然影响着集群的扩展，从 1 PB到 100+ PB，需要不断的进行调优、集群拆分来，HDFS 可以支持到 EB 级别，但是投入很高的运维成本，来解决慢启动，心跳风暴，节点扩容、节点迁移，数据平衡等问题。

云原生的大数据存储方案，基于阿里云 OSS 构建数据湖是最合适的选择。OSS 是阿里云上的对象存储服务，有着高性能、无限容量、高安全、高可用、低成本等优势，JindoFS 针对大数据生态对 OSS 进行了适配，缓存加速，甚至提供专门的文件元数据服务，满足上云客户的各种分析计算需求。因此在阿里云上，JindoFS + OSS 成为客户采取数据湖架构迁移上云的最佳实践。

JindoFS 介绍

Jindo 是阿里云基于 Apache Spark / Apache Hadoop 在云上定制的分布式计算和存储引擎。Jindo 原是阿里云开源大数据团队的内部研发代号，取自筋斗(云)的谐音，Jindo 在开源基础上做了大量优化和扩展，深度集成和连接了众多阿里云基础服务。

JindoFS 是阿里云针对云上存储自研的大数据缓存加速服务，JindoFS 的设计理念是云原生：弹性、高效、稳定和低成本。JindoFS 完全兼容 Hadoop 文件系统接口，给客户带来更加灵活、高效的数据湖加速方案，完全兼容阿里云 EMR 中所有的计算服务和引擎：Spark、Flink、Hive、MapReduce、Presto、Impala 等。JindoFS 有两种使用模式，块存储模式(BLOCK)和缓存模式(CACHE)。下面我们介绍下如何在 E

最低0.47元/天解锁文章

阿里云技术

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
基于JindoFS+OSS构建高效数据湖

为什么要构建数据湖大数据时代早期，Apache HDFS 是构建具有海量存储能力数据仓库的首选方案。随着云计算、大数据、AI 等技术的发展，所有云厂商都在不断完善自家的对象存储，来更好地适配 Apache Hadoop/Spark 大数据以及各种 AI 生态。由于对象存储有海量、安全、低成本、高可靠、易集成等优势，各种 IoT 设备、网站数据都把各种形式的原始文件存储在对象存储上，利用对象存储增强和拓展大数据 AI 也成为了业界共识，Apache Hadoop 社区也推出了原生的对象存储“Ozone”。
复制链接

扫一扫