OPPO数据湖统一存储技术实践

OPPO的自研数据湖存储CBFS提供S3、HDFS、POSIX文件三种接入协议,支持元数据管理、纠删码存储和访问加速。CBFS采用分布式元数据管理,使用纠删码降低成本并增强数据耐久性,同时利用多级缓存提升访问速度。未来将开源更多特性,包括在线EC、湖加速等。
摘要由CSDN通过智能技术生成

导读

OPPO是一家智能终端制造公司,有着数亿的终端用户,每天产生了大量文本、图片、音视频等非结构化数据。在保障数据连通性、实时性以及数据安全治理要求的前提下,如何低成本、高效率地充分挖掘数据价值,成为了拥有海量数据的公司的一大难题。目前业界的流行解决方案是数据湖,本文介绍的OPPO自研的数据湖存储CBFS在很大程度上可解决目前的痛点。

▌数据湖简述

数据湖定义:一种集中化的存储仓库,它将数据按其原始的数据格式存储,通常是二进制blob或者文件。一个数据湖通常是一个单一的数据集,包括原始数据以及转化后的数据(报表,可视化,高级分析和机器学习等)

1. 数据湖存储的价值

图片1.png

对比传统的Hadoop架构,数据湖有以下几个优点:

  • 高度灵活:数据的读取、写入和加工都很方便,可保存所有的原始数据
  • 多重分析:支持包括批、流计算,交互式查询,机器学习等多种负载
  • 低成本:存储计算资源独立扩展;采用对象存储,冷热分离,成本更低
  • 易管理:完善的用户管理鉴权,合规和审计,数据“存管用”全程可追溯

2. OPPO数据湖整体解决方案

图片2.png
OPPO主要从三个维度建设数据湖:最底层的湖存储,我们采用的是CBFS,它是一种同时支持S3、HDFS、POSIX文件3种接入协议的低成本存储;中间一层是实时数据存储格式,我们采用了iceberg;最上层可支持各种不同的计算引擎

3. OPPO数据湖架构特点

图片3.png
早期大数据存储特点是流计算和批计算的存储放在不同的系统中,升级后的架构统一了的元数据管理,批、流计算一体化;同时提供统一的交互查询,接口更友好,秒级响应,并发度高,同时支持数据源Upsert变更操作;底层采用大规模低成本的对象存储作为统一的数据底座,支持多引擎数据共享,提升数据复用能力

4. 数据湖存储CBFS架构

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值