编辑:李治鹏,来自浪潮信息,对象存储开发工程师
计算平台事业部 E-MapReduce团队探索并开发了JindoFS 框架,用于加速存储计算分离场景下数据读写性能。来自阿里云智能团队的姚舜扬老师带来JindoFS存储策略和读写优化的详细介绍。本文整理自视频https://www.slidestalk.com/AliSpark/JindoFS89850?video
本次分享主要分为四部分:
介绍数据缓存场景,做数据缓存的背景与动机
介绍数据读写策略原理与优化
缓存数据管理
最佳实践与总结
数据缓存场景
在传统的大数据分析场中,HDFS应该是一个事实上的存储标准, HDFS是典型的把计算资源与存储资源部署在一套集群中,即计算存储相互融合的架构如下图左边所示(带来集群计算与存储能力不能不对称扩展问题)。随着这几年数据上云的趋势与发展,计算与存储分离的架构在大数据分析场景中逐渐显现出来,越来越多的客户选择这样的架构去部署他们的集群。它和与传统基于HDFS系统架构的区别是它的计算资源与存储资源是物理隔离的,计算集群与后端的存储集群通过网络进行连接,如下图右边所示。计算集群的大量数据读写操作通过大量网络请求与存储集群进行交互。在这种场景下网络吞吐往往成为整个作业执行过程中的一个性能瓶颈因素。
所以在这种架构下,非常有必要在计算侧(计算集群中)对后端存储集群做一个缓存层,利用缓存层对数据的缓存,减少计