架构
文章平均质量分 88
大数据架构
宝哥大数据
大数据、机器学习、深度学习
展开
-
开源数据湖方案选型:Hudi、Delta、Iceberg深度对比
文章目录前言: 共同点一、Databricks 和 Delta1.1、**存在问题 :**二、**Uber和Apache Hudi**这篇文章主要向大家介绍开源数据湖方案选型:Hudi、Delta、Iceberg深度对比,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。目前市面上流行的三大开源数据湖方案分别为: delta、Apache Iceberg和Apache Hudi。其中,因为 Apache Spark 在商业化上取得巨大成功,因此由其背后商业公司 Databricks原创 2021-09-09 15:24:37 · 5767 阅读 · 1 评论 -
数据仓库思维导图
一、数据仓库 1.1、什么是数据仓库 1.1.1、简介 1.1.2、四个特性 1.1.2.1、面向主题 1.1.2.2、集成化的 1.1.2.3、稳定性 1.1.2.4、随着时间变化的 1.2、数据仓库发展 1.3、数据库与数据仓库的区别 1.4、数据仓库架构分层 1.5、元数据介绍 1.6、数据仓库建模 1.6.1、事实表 与 维度表 1.6.2、雪花模型 1.6.3、星型模型 1.6.4、星座模型 1.7、 1.x、 1.原创 2021-08-25 21:16:15 · 1431 阅读 · 5 评论 -
领域模型设计
领域模型,四种模型原创 2022-06-15 16:18:59 · 3825 阅读 · 0 评论 -
数据仓库Inmon和Kimball架构
文章目录一、Inmon 架构二、Kimball 架构三、Inmon vs Kimball三、独立数据集市五、总结关注我的公众号【宝哥大数据】,更多干货对于数据仓库体系结构的最佳问题,始终存在许多不同的看法,甚至有人把 Inmon 和 Kimball 之争称之为数据仓库界的“宗教战争”,那么本文就通过对两位提倡的数据仓库体系和市场流行的另一种体系做简单描述和比较,不是为了下定义那个好,那个不好,而是让初学者更明白两位数据仓库鼻祖对数据仓库体系的见解而已。一、Inmon 架构2000年5月,W.H.Inm原创 2021-08-31 07:45:21 · 870 阅读 · 0 评论 -
我在阿里做了5年数据架构师,想告诉你这些数据仓库的方法论
数据仓库是所有产品的数据中心,公司体系下的所有产品产生的所有数据最终都流向数据仓库,可以说数据仓库不产生数据,也不消费数据,只是数据的搬运工。记得很久以前曾有一位前辈和我说过:“进来的数据是垃圾数据,出去也是垃圾数据”。在实际环境中,往往我们一条业务线会由多个不同的系统支撑组成(例如:很多电商后端业务线都区分为库存系统、售后系统、采购系统、CRM系统等)。这些系统由于本身设计的缺陷或业务流程变更等问题,所产生的数据往往都是有缺失、冗余的,如果直接使用这些数据去进行数据分析,那最后分析出来的结论多半也不转载 2021-08-30 07:24:39 · 363 阅读 · 0 评论 -
元数据管理
元数据原创 2021-08-28 15:37:51 · 264 阅读 · 0 评论 -
事实表与维度表
文章目录前言一、事实表1.2、事实表的特征1.3、事实表的类型1.3.1、交易事实表1.3.2、快照事实表1.3.3、积累事实表1.4、它如何在数据仓库中工作?1.5、事实表的优点二、维度表2.1、维度表类型2.1.1、SCD(缓慢变化维)2.1.2、一致维度2.1.3、垃圾维度2.1.4、退化维度2.1.5、角色扮演维度2.2、它在数据仓库中是如何工作的?2.3、维度表的好处三、维度表 vs 事实表3.1、事实表和维表之间的主要区别3.2、对比项关注我的公众号【宝哥大数据】,更多干货前言事实表包含系统原创 2021-08-26 16:38:47 · 9073 阅读 · 1 评论 -
什么是OLAP?
1.1、OLAP 简介OLAP 是在线分析处理,顾名思义就是OLAP是用于数据分析的;因此,它使我们能够同时分析来自多个数据库系统的信息。换句话说,我们可以说它是一种计算方法,可以让用户轻松提取所需的数据并查询数据,以便从不同的角度进行分析。它基本上是基于庞大的数据,称为数据仓库;它从数据仓库中收集所需的数据并执行业务所需的分析,以在业务中做出一些决策,以提高利润、改善销售、改善品牌、改善营销等等。因此,它在商业智能中用于趋势分析、销售预测、财务报告、计划目的、预算等方面的查询辅助。1.2、什原创 2021-08-26 15:29:45 · 48222 阅读 · 0 评论 -
什么是数据湖?
文章目录一、什么是数据湖?1.1、数据湖概述1.2、为什么需要数据湖?1.3、数据湖架构1.3.1、来源1.3.1.1、同质来源1.3.1.2、异构来源1.3.1.3、数据湖架构主要使用以下来源:1.3.2、数据处理层1.3.3、目标1.4、数据湖的优点与风险1.4.1、优点1.4.2、风险二、数据湖与数据仓库关注我的公众号【宝哥大数据】,更多干货一、什么是数据湖?1.1、数据湖概述是一个集中式存储库,可以容纳来自各种数据源的任何格式的关系数据;然后可以使用它来生成用于分析和报告目的的数据。从数据源中原创 2021-08-26 11:16:54 · 1687 阅读 · 1 评论 -
ROLAP vs MOLAP vs HOLAP
一、ROLAP 与 MOLAP 与 HOLAP 之间的区别ROLAP 与 MOLAP 与 HOLAP 是表示逻辑数据模型的数据仓库的相关术语。ROLAP 是指关系数据的关系在线分析处理。MOLAP 被称为多维在线分析处理,它通过多个数据维度来实现。HOLAP 被称为混合在线分析处理,适用于 ROLAP 和 MOLAP 概念。数据仓库中的数据存储和数据安排、设计的视图访问取决于 OLAP 实现的类型。ROLAP SQL 是查询技术,而 MOLAP 使用稀疏矩阵,而 HOLAP 使用 SQL 和稀原创 2021-08-26 10:20:14 · 4656 阅读 · 0 评论 -
OLTP vs OLAP
一、OLTP vs OLAP1.1、OLTP 和 OLAP 的区别OLTP (在线事务处理),OLAP (在线分析处理)。顾名思义,OLTP 是管理和更新数据库中事务的过程,而 OLAP 是从数据库中检索所需数据以便将其用于分析操作的过程。OLTP 通常比较简单,在系统中查询不费力,而OLAP 是一个复杂的系统,数据量较大,因此需要复杂的查询。大致上, OLTP 作为实时性高, OLAP 作为离线处理1.3、在线事务处理 (OLTP)为了让大/中型公司执行他们的管理/业务或销售任务,必须有 OLT原创 2021-08-25 14:08:43 · 916 阅读 · 0 评论 -
数据科学家 vs 数据工程师 vs 统计学家
文章目录一、数据科学家 与 数据工程师 与 统计学家 之间的区别1.1、数据科学家的发展领域1.2、数据工程师及其演变1.2.1、数据工程师的主要职责1.2.2、成为成功的数据科学家所需的技能1.2.2.1、数据科学家需要具备基本工具方面的知识1.2.2.2、数据科学家需要对基本统计有正确的理解1.2.2.1、一个好的数据科学家必须了解机器学习的各个方面一、数据科学家 与 数据工程师 与 统计学家 之间的区别数据科学家 vs 数据工程师 vs 统计学家 —— Big Data 不仅仅是两个词,而且以前.原创 2021-08-25 09:14:04 · 286 阅读 · 0 评论