数据仓库
文章平均质量分 88
数据社
欢迎关注公众号:数据社
展开
-
数仓脚本迁移方法及自动化
大家好,我是一哥,今天给大家分享一篇干货,看到这篇文章想起了4年前参与的大数据平台迁移项目,往事历历在目~《大数据集群迁移的那一夜是怎么过的|回忆录》。本篇将对数据仓库迁移方法论中最为核心...转载 2021-03-24 07:06:00 · 1832 阅读 · 0 评论 -
为什么要做数仓分层,不做行吗?
来源:数据社 作者:数据一哥 编辑:数据一哥全文共1404个字,建议阅读4分钟大家好,我是一哥。今天跟大家聊一聊数仓为什么分层?01经典的数仓分层首先跟大家聊一个经典的数仓分层结构,主要包...原创 2022-02-20 12:47:36 · 7241 阅读 · 0 评论 -
「数仓面试」如何确定主题域?
作者:一哥 来源:数据社全文共1759个字,建议7分钟阅读大家好,我是一哥,前几天跟一个朋友聊了一些数据中台建设的内容,针对数据仓库中主题域如何划分这个话题聊了很多。其实数据仓库建设的理论...原创 2022-01-13 08:06:00 · 6971 阅读 · 0 评论 -
传统BI如何转大数据数仓
公众号推文规则变了,点击上方"数据社",设为星标后台回复【加群】,申请加入数据学习交流群大家好,我是一哥,前几天建了一个数据仓库方向的小群,收集了大家的一些问题,其中有...原创 2021-05-04 19:39:00 · 8341 阅读 · 2 评论 -
如何避免数仓模型“烟囱式”建设
如果把指标⽐喻成⼀棵树上的果实,那模型就是这棵⼤树的躯⼲,想让果实结得好,必须让树⼲变得粗壮。真实场景举例:⼤多数公司的分析师会结合业务做⼀些数据分析(需要⽤到⼤量的数据),通过报表的⽅...转载 2020-12-08 07:00:00 · 2392 阅读 · 0 评论 -
数仓如何选择计算引擎?
公众号推文规则变了,点击上方"数据社",设为星标后台回复【加群】,申请加入数据学习交流群图片拍摄于前段时间的上海,相信大家都见过这建筑大家好,我是一哥,之前给大家讲了《...原创 2021-07-19 07:06:00 · 1199 阅读 · 0 评论 -
详解如何在数仓中管理元数据(文末彩蛋~)
来源:网络 编辑:数据一哥全文共5469个字,建议阅读14分钟大家好,我是一哥,元数据管理是企业数据治理的基础,是数据仓库建设的关键。作为一名数据人,首要任务就是理解元数据管理。本篇文章将...转载 2022-02-11 19:31:00 · 5169 阅读 · 0 评论 -
网易云音乐数仓维度建模实践-模型设计篇
数仓模型架构搭建、模型设计是整个数仓建设的核心部分。数仓建模的价值体现在:数据质量、健壮水平、资源消耗、服务响应速度。写在前面:我们为什么要建模这里想先说下,这些年我在数仓摸爬滚打的一些经...转载 2021-03-02 07:06:00 · 1629 阅读 · 2 评论 -
数仓治理:数据地图长什么样?
大家好,我是一哥,最近在做数据治理相关的工作,说下数据治理里面很重要的一块,同时也可以作为数据治理的一个成果—数据地图。图:来自亿信文章分为以下四个部分:1.背景2. 数据地图需要解决的...原创 2021-08-13 07:06:00 · 1447 阅读 · 0 评论 -
万字详解ETL和数仓建模!
来源:网络全文共8672个字,建议收藏阅读什么是ETLETL是数据抽取(Extract)、转换(Transform)、加载(Load )的简写,它是将OLTP系统中的数据经过抽取,并将...转载 2022-03-10 07:36:00 · 4361 阅读 · 0 评论 -
「建议收藏」2万字详解大厂实时数仓建设
来源:五分钟学大数据全文共20610个字,建议阅读时间50分钟大家好,我是一哥,最近这几天郑州下了大雪,你那里下雪了吗?今天给大家分享下实时数仓的大厂干货!一、实时数仓建设背景1. 实时...转载 2022-01-24 08:06:00 · 6753 阅读 · 0 评论 -
数仓链路保障体系与数据测试方法经验分享
作者:傅宇康来源:有赞技术全文共5070个字,建议13分钟阅读导读有赞数据报表中心为商家提供了丰富的数据指标,包括30+页面,100+数据报表以及400+不同类型的数据指标,它们帮助商家...转载 2022-02-07 18:06:00 · 4713 阅读 · 0 评论 -
数仓工程师如何避免沦为“提数机”
小B是一名数据分析师,经常靠“提数”维生……...原创 2021-01-03 13:08:18 · 1627 阅读 · 0 评论 -
那些被问懵逼的数仓面试题
大家好,我是一哥,最近群里有人问数仓面试的问题,今天一哥给大家收集了一些面试问题,快过年了了,准备换工作的收藏吧!数仓构建:1). 前期业务调研 需求调研 数据调研 技术选型2). 提炼...转载 2020-12-10 07:00:00 · 1802 阅读 · 0 评论 -
数仓开发应避免的10个陷阱
点击上方“蓝字”关注我们写在前面在Ralph Kimball和Margy Ross的《数据仓库工具箱》一书中,提到了数据仓库设计中的10个常见陷阱,本文针对每个陷阱添加了一条与数据仓库设...转载 2020-08-19 06:50:00 · 8003 阅读 · 0 评论 -
数仓实战|两步搞定Hive数据加载到Greenplum
如果说Hive是离线数仓的代表,那么Greenplum就是MPP数据库的代表。在离线数仓的年代,以Hive为核心的数据仓库席卷数据仓库市场,几乎成为了离线数仓的代名词。...转载 2021-08-23 07:06:00 · 3340 阅读 · 3 评论 -
搞数仓也得懂几个常用机器学习算法
作者:数据一哥 来源:数据社全文共10793个字,建议收藏阅读01回归算法 一、理解线性回归模型首先讲回归模型,回归模型研究的是因变量(目标)和自变量(预测器)之间的关系,因变量可以是连续也可以离散,如果是离散的就是分类问题。思考房价预测模型,我们可以根据房子的大小、户型、位置、南北通透等自变量预测出房子的售价,这是最简单的回归模型,在初中里面回归表...原创 2022-03-28 07:36:00 · 6556 阅读 · 0 评论 -
传统数仓如何转型大数据
大家好,我是一哥,前几天建了一个数据仓库方向的小群,收集了大家的一些问题,其中有个问题,一哥很想去谈一谈——现在做传统数仓,如何快速转到大数据数据呢?其实一哥知道的很多同事都是从传统数据...原创 2020-11-23 07:00:00 · 9918 阅读 · 0 评论 -
谈谈ETL中的数据质量
数据质量监控背景当我们把数据导入数据仓库时,ETL中的每个步骤中都可能会遇到数据质量错误。比如与源系统的连接错误,抽取数据可能会失败。由于记录类型冲突,数据转换可能会失败。即使的ETL任务成功,提取的记录中也会出现异常值,导致后续过程报错。那么如何主动捕获这些错误,并确保数据仓库中的数据质量?接下来,我们来总结5条规则,在做ETL的过程中,使用这些规则来确保数据仓库中的数据质量。数据质量监控方法1、校验每天的记录数分析师遇到的最常见数据异常是其报告的输出突然降至0。我们通常会发现最后的罪魁祸首原创 2020-05-29 14:08:57 · 17920 阅读 · 0 评论 -
写给数据分析师的数据仓库知识(3)
小B是一名数据分析师,他问小A XXX的所有指标给我一下,小A“鄙视的”给了他一个文档。元数据知道多少小B作为一名数据分析师,为什么自己没能去找到数据呢?这就要说下数据仓库的元数据管理。我们都知道传统的数据库中每张表都有注释,包括表注释,字段注释,你拿到一个不熟悉的表肯定要先看注释,然后才知道每个字段的意思。就像你学习英语的时候查那本牛津字典一样,你能很快查到每个单词的意思,不就你还能看单词...原创 2020-03-16 21:26:13 · 16331 阅读 · 0 评论 -
写给数据分析师的数据仓库知识(2)
数据仓库知多少首先,我们来了解一下数据仓库吧!数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合。我们来看这几个词:面向主题,数据仓库会规划各种业务主题,所以我们需要理解各大主题的范畴以及之间的关系,这样就了解了数仓的基本架构。集成,数据仓库的数据会来自各个业务系统数据或者外部爬取数据,所以需要我们知道每个数据仓库的模型字段都是来自哪个源,这样我们就能快速全面的了解相关...原创 2020-03-16 21:23:18 · 16147 阅读 · 0 评论 -
写给数据分析师的数据仓库知识(1)
数据库说到数据库,我们一般是指传统的关系型数据库,也就是“联机事务处理”(OLTP),主要用户在线交易处理。比如银行业务、电信业务之前很多都是Oracle或者DB2(可能现在很多开发者没再用过),到后来的互联网电商用的MySql,这些都是关系型数据库。后来有了newSQL、NoSQL(not only sql),现在也分了很多种类,比如大型互联网公司存储用户画像的HBase,还有用于存储文档,...原创 2020-03-12 08:44:15 · 15637 阅读 · 0 评论 -
浅谈数据中台
标签(空格分隔): 数据仓库一、什么是数据中台数据中台的概念最是阿里提出来的是为了实现数据的分层和水平解耦,提供数据服务能力。看了那么多中台的概念,对中台也有些自己的理解。笔者认为中台主要是为了提供全域的数据服务。主要包括以下4部分:数据资产、数据治理、数据模型、数据服务。打通数据建模对全域数据进行沉淀形成数据资产,从而提供统一的数据服务功能。二、如何建立数据中台建设数据中台主要就是...原创 2019-05-15 16:23:34 · 12104 阅读 · 0 评论