JindoFS 存储策略和读写优化

JindoFS是云原生文件系统,针对计算存储分离场景提供数据缓存加速。通过本地缓存、多线程上传、动态多备份等策略优化数据读写性能。Cache Locality确保任务在数据所在节点执行,提高读取效率。JindoFS支持Block模式和cache模式,并具备缓存数据管理功能,如LRU策略自动清理冷数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

编辑:李治鹏,来自浪潮信息,对象存储开发工程师


计算平台事业部 E-MapReduce团队探索并开发了JindoFS 框架,用于加速存储计算分离场景下数据读写性能。来自阿里云智能团队的姚舜扬老师带来JindoFS存储策略和读写优化的详细介绍。本文整理自视频https://www.slidestalk.com/AliSpark/JindoFS89850?video

本次分享主要分为四部分:

  1. 介绍数据缓存场景,做数据缓存的背景与动机

  2. 介绍数据读写策略原理与优化

  3. 缓存数据管理

  4. 最佳实践与总结

数据缓存场景

在传统的大数据分析场中,HDFS应该是一个事实上的存储标准, HDFS是典型的把计算资源与存储资源部署在一套集群中,即计算存储相互融合的架构如下图左边所示(带来集群计算与存储能力不能不对称扩展问题)。随着这几年数据上云的趋势与发展,计算与存储分离的架构在大数据分析场景中逐渐显现出来,越来越多的客户选择这样的架构去部署他们的集群。它和与传统基于HDFS系统架构的区别是它的计算资源与存储资源是物理隔离的,计算集群与后端的存储集群通过网络进行连接,如下图右边所示。计算集群的大量数据读写操作通过大量网络请求与存储集群进行交互。在这种场景下网络吞吐往往成为整个作业执行过程中的一个性能瓶颈因素。

所以在这种架构下,非常有必要在计算侧(计算集群中)对后端存储集群做一个缓存层,利用缓存层对数据的缓存,减少计

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值