数据仓库
文章平均质量分 70
大跃ET
大数据,数据仓库,每周要看一个spark小模块或小问题
展开
-
Hadoop的元数据治理--Apache Atlas0.8
Hadoop的元数据治理--Apache AtlasApache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。Apache Atlas目前是Apache下的孵化项目,最新版本为Apache Atlas 0.8:本文将分以下部分为大家介绍Atlas的架构和核心功能:- 概述- 核心特性- 架构与组件- 部署与配置- 类.转载 2021-04-14 11:55:13 · 639 阅读 · 0 评论 -
什么是主数据
转载 2021-04-13 16:02:57 · 139 阅读 · 0 评论 -
DataHub——实时数据治理平台
DataHub首先,阿里云也有一款名为DataHub的产品,是一个流式处理平台,本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话题。不管国家层面,还是企业层面现在对这个问题是越来越重视。数据治理要解决数据质量,数据管理,数据资产,数据安全等等。而数据治理的关键就在于元数据管理,我们要知道数据的来龙去脉,才能对数据进行全方位的管理,监控,洞察。DataHub是由LinkedIn的数据团队开源的一款提供元数据搜索与发现的工具。提到LinkedIn,不得不想到大名鼎鼎的Kafk.转载 2021-04-07 17:30:29 · 1707 阅读 · 0 评论 -
数据治理方案技术调研 Atlas VS Datahub VS Amundsen
数据治理意义重大,传统的数据治理采用文档的形式进行管理,已经无法满足大数据下的数据治理需要。而适合于Hadoop大数据生态体系的数据治理就非常的重要了。大数据下的数据治理作为很多企业的一个巨大的难题,能找到的数据的解决方案并不多,但是好在近几年,很多公司已经进行了尝试并开源了出来,本文将详细分析这些数据发现平台,在国外已经有了十几种的实现方案。数据发现平台可以解决的问题为什么需要一个数据发现平台?在数据治理过程中,经常会遇到这些问题:数据都存在哪?该如何使用这些数据?数据是做什么的?数.转载 2021-04-07 16:11:11 · 1200 阅读 · 0 评论 -
适用于大数据的开源OLAP系统的比较:ClickHouse,Druid和Pinot
适用于大数据的开源OLAP系统的比较:ClickHouse,Druid和Pinot在这篇文章中,我想比较ClickHouse,Druid和Pinot,这三个开源数据存储区,他们通过交互延迟对大量数据运行分析查询。警告:这篇文章很大,您可能只想阅读最后的“摘要”部分。信息来源我从核心开发人员之一Alexey Zatelepin那里了解了ClickHouse的实现细节。用英语提供的最好的材料是本文档页面的最后四个部分,但是非常稀缺。我是Druid的提交者,但是我对这个系统没有既得利益(实际上转载 2020-11-17 16:12:36 · 1275 阅读 · 0 评论 -
数据仓库建模方法论
建模方法论数仓的建模或者分层,其实都是为了更好的去组织、管理、维护数据,所以当你站在更高的维度去看的话,所有的划分都是为了更好的管理。小到JVM 内存区域的划分,JVM 中堆空间的划分(年轻代、老年代、方法区等),大到国家的省市区的划分,无一例外的都是为了更好的组织管理访问性能:能够快速查询所需的数据,减少数据I/O。 数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本。 使用效率:改善用户应用体验,提高使用数据的效率。 数据质量:改善数据统计口径的转载 2020-12-16 14:10:07 · 339 阅读 · 0 评论 -
漫谈数据仓库之维度建模
0x00 前言下面的内容,是笔者在学习和工作中的一些总结,其中概念性的内容大多来自书中,实践性的内容大多来自自己的工作和个人理解。由于资历尚浅,难免会有很多错误,望批评指正!概述数据仓库包含的内容很多,它可以包括架构、建模和方法论。对应到具体工作中的话,它可以包含下面的这些内容:以Hadoop、Spark、Hive等组建为中心的数据架构体系。 各种数据建模方法,如维度建模。 调度系统、元数据系统、ETL系统、可视化系统这类辅助系统。我们暂且不管数据仓库的范围到底有多大,在数据仓库体转载 2020-12-17 10:26:03 · 327 阅读 · 0 评论