企业数据湖架构

什么是数据湖?

维基百科定义:数据湖是一类存储数据自然/原始格式的系统或存储,通常是对象块或者文件,包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据,包括来自于关系型数据库中的结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如email、文档、PDF等)和二进制数据(如图像、音频、视频)。

为什么需要数据湖?

  1. 更快的开发节奏,fast time to market
  2. 多样性数据源,包括实时和批模式,结构化和非结果化数据
  3. 灵活选择数据集

数据湖架构

在这里插入图片描述

工作流

在这里插入图片描述

工具集

阶段工具
1. 数据集成Sqoop,Filebeat,Flume,Kafka
2. 数据实时处理Kafka stream,Spark Steaming,Flink
3.数据安全Ranger,Kerberos,白名单
4.数据离线处理Spark,Zepplin,Jupyter,airflow
5.数据存储HDFS,S3,Clickhouse
6.数据治理元数据,数据服务,数据质量
7.数据分析Presto,Hive,Spark,Tableau
8.数据下载自助取数,Excel

最佳实践

  • 相对于数据仓库,数据湖的数据结构无需事先定义。
  • 快速可以导入新的类型数据,包括结构化、半结构和非结构化数据。
  • 目的是信息发现,主力生产工具切换成为更为自由的notebook
  • 数据安全是强制要求
  • 元数据自助可查
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值