数据湖架构浅谈

数据湖架构浅谈

一、大数据技术和工具归类:

在这里插入图片描述
部分术语翻译:
Administration: 管理平台(此处应指大数据管理平台)
Data Security: 数据安全
Data Governance: 数据管控
Data Computing: 数据计算
Data Collection: 数据采集
Data Storage: 数据存储
BI/DATA Visualization: 商务智能可视化/数据可视化

二、数据湖的概念:

1.数据湖是一个大型数仓和处理环境。
2.数据湖是一种用于分析不同类型数据源的企业级数据管理平台。
   a.首先将一组数据加载到数据湖(例如Hadoop),然后对加载到数据湖中的数据进行 业务分析和数据挖掘。
   b.建立数据湖是进行数据相关业务的第一步。

三、数据湖的功能:

Data Ingestion(获取数据)
Data Storage(数据存储)
Data Auditing(数据审计)
Data Exploration(数据探索)
Data Lineage(数据继承)
Data Discovery(数据挖掘)
Data Governance(数据管理与处理)
Data Security(数据安全)
Data Quality(数据质量评估)
在这里插入图片描述

四、数据湖和Hadoop的区别:
  • 数据湖提供一种在系统中存储不同模式和结构的数据集(通常是二进制对象或者文 件)的解决方案。
  • Hadoop是数据湖的一种实现形式。
  • 其他实现方式还有Azure Data Lake Store文件系统,其他云计算环境等。
五、数据湖的三大关键属性:
  • 包含一切–一个数据湖可以存储所有数据,不论是永久的原始数据还是已经处理过的数据。
  • 无限深入–一个数据湖可以让不同部门的用户根据自己的需求来优化、探索和丰富数据。
  • 访问灵活–数据湖支持跨共享基础架构的多种数据访问模式:批处理,交互式,在线,搜索,内存和其他处理引擎。
六、传统企业数据仓库:
  1. 通过收集需求来构建设计方案;
  2. 通过事实和维度来构建数据模型;
  3. ETL:提取、转换、加载数据源中的数据到数仓;
  4. 使用BI工具构建报表。
七、范式转换:

1.EDW方式(写范式):
i.结构化→提取→分析
ii.单片
iii.结构化的

2.EDL方式(读范式):
i.提取→分析→结构化
ii.分布式
iii.配套工具齐全
iv.数据结构多样化

八、为什么选择EDL,而不是EDW?

1.EDW(Enterprise Data Warehouse)作为商业智能和数据挖掘的基础,拥有以下不足:

  • 与时间不同步
  • 可预测范围和能力有限
  • 成本高昂
  • 无法处理复杂数据
    2.EDL优势:
  • 低成本存储海量数据
  • 具有高速数据的不同数据源
  • 超强的数据处理能力
  • 数据管控和整合
  • 阅读模式-在数据不受结构限制时洞悉其本质。
九、数据湖的层次
  • 数据生命周期管理(ILM)
  • 元数据:数据定义、数据继承
  • 数据安全
十、数据湖的分层:
  • Intake Tier(摄入层):数据获取,工具:WebHDFS、Kafka、Flume、Sqoop、Flink等;
  • Data Management Tier(数据管理层):丰富和发布数据,工具:Hive、Spark、Flink等;
  • Consumption Tier(消费层):应用处理后的数据,工具:NoSQL (MongoDB, Casandra, etc.)、Tableau、D3.js
  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值