JindoFS 存储策略和读写优化

最新推荐文章于 2025-05-17 16:11:09 发布

Apache Spark中国社区

最新推荐文章于 2025-05-17 16:11:09 发布

阅读量463

点赞数

文章标签：网络大数据 hadoop java 数据库

本文链接：https://blog.csdn.net/weixin_45906054/article/details/108613381

版权

JindoFS是云原生文件系统，针对计算存储分离场景提供数据缓存加速。通过本地缓存、多线程上传、动态多备份等策略优化数据读写性能。Cache Locality确保任务在数据所在节点执行，提高读取效率。JindoFS支持Block模式和cache模式，并具备缓存数据管理功能，如LRU策略自动清理冷数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

编辑：李治鹏，来自浪潮信息，对象存储开发工程师

计算平台事业部 E-MapReduce团队探索并开发了JindoFS 框架，用于加速存储计算分离场景下数据读写性能。来自阿里云智能团队的姚舜扬老师带来JindoFS存储策略和读写优化的详细介绍。本文整理自视频https://www.slidestalk.com/AliSpark/JindoFS89850?video

本次分享主要分为四部分:

介绍数据缓存场景，做数据缓存的背景与动机
介绍数据读写策略原理与优化
缓存数据管理
最佳实践与总结

数据缓存场景

在传统的大数据分析场中，HDFS应该是一个事实上的存储标准， HDFS是典型的把计算资源与存储资源部署在一套集群中，即计算存储相互融合的架构如下图左边所示（带来集群计算与存储能力不能不对称扩展问题）。随着这几年数据上云的趋势与发展，计算与存储分离的架构在大数据分析场景中逐渐显现出来，越来越多的客户选择这样的架构去部署他们的集群。它和与传统基于HDFS系统架构的区别是它的计算资源与存储资源是物理隔离的，计算集群与后端的存储集群通过网络进行连接，如下图右边所示。计算集群的大量数据读写操作通过大量网络请求与存储集群进行交互。在这种场景下网络吞吐往往成为整个作业执行过程中的一个性能瓶颈因素。