数据仓库
文章平均质量分 56
GOD_WAR
喜欢钻研大数据、python、机器学习、人工智能...
展开
-
数据人员常用名词解析:指标、标签、度量、口径、数据标准、血缘等
这里整理了数据人员,经常会接触到的名词和概念,了解这些专有名词对于数据研发和数据分析时的人员协作及研发都有很高的作用。原创 2023-06-20 16:43:52 · 786 阅读 · 0 评论 -
实时数仓架构图总结
基于Flink的滴滴实时数仓实践分享嘉宾:潘澄,滴滴基础平台 资深研发工程师实时OLAP,从0到1分享嘉宾:高正炎,比特大陆腾讯基于Flink + Iceberg 全场景实时数仓的建设实践分享嘉宾:苏舒,腾讯平台 高级研发工程师腾讯看点基于Flink构建万亿数据量下的实时数仓及实时查询系统分享嘉宾:王展雄,腾讯看点数据团队高级工程师龙逸尘-Flink在顺丰的应用实践分享嘉宾:龙逸尘,顺丰科技..原创 2021-10-24 10:28:15 · 703 阅读 · 0 评论 -
电商 SPU和SKU 的区别
SPU = Standard Product Unit (标准产品单位)概念 : SPU 是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品的特性。 通俗点讲,属性值、特性相同的货品就可以称为一个 SPU。 例如: iphone7 就是一个 SPU,与商家,与颜色、款式、套餐都无关。 ...原创 2021-08-17 11:25:18 · 630 阅读 · 0 评论 -
什么是维度,什么是事实,什么是度量,什么是粒度
维度在《数据仓库工具箱》一书中对维度的定义是:维度表是事实表不可或缺的组成部分。维度表包含业务过程度量事件有关的文本环境。他用来描述与"谁、什么、哪里、何时、如何、为什么"有关的事件。维度用来描述事实,他从不同角度描述事实,也就是说维度是描述事实的角度。我们描述事实的何时,那么就是时间维度。比如我们描述这件商品的何时售出,那就是时间维度比如我们描述这件商品的何地售出,那就是地理维度比如我们描述这件商品的被谁买了,那就是人员维度等等等事实在《数据仓库工具箱》一书中对事.原创 2020-12-17 11:44:35 · 6667 阅读 · 3 评论 -
数仓开发需常用SQL分析函数
基本语法analytic_function_name([argument_list])OVER([PARTITIONBYpartition_expression,…][ORDERBYsort_expression,…[ASC|DESC]]) analytic_function_name: 函数名称 — 比如RANK(),SUM(),FIRST()等等 partition_expression: 分区列 sort_expression: 排序列 ...原创 2020-11-29 17:40:27 · 526 阅读 · 0 评论 -
工作后才知道的SQL密技
SQL是大数据从业者的必备技能,大部分的大数据技术框架也都提供了SQL的解决方案。可以说SQL是一种经久不衰、历久弥新的编程语言。尤其是在数仓领域,使用SQL更是家常便饭。本文会分享四个在面试和工作中常用的几个使用技巧,具体包括: 日期与期间的使用 临时表与Common Table Expression (WITH) Aggregation 与CASE WHEN的结合使用 Window Function的其他用途 数仓?不就是写写SQL吗…第一:日期.原创 2020-10-10 22:37:14 · 375 阅读 · 0 评论 -
数仓维度建模
20世纪80年代末期,数据仓库技术兴起。自Ralph Kimball 于1996 年首次出版The Data Warehouse Toolkit(Wiley)一书以来,数据仓库和商业智能(Data Warehousing and Business Intelligence, DW/BI)行业渐趋成熟。Kimball提出了数据仓库的建模技术--维度建模(dimensional modelling),该方法是在实践观察的基础上开发的。虽然它不基于任何理论,但是在实践中却非常成功。维度建模被视为设计数据仓库和数据原创 2020-09-13 22:28:07 · 1049 阅读 · 0 评论 -
数据仓库的建设(创业公司)
本文将重点探讨数据处理层中数据仓库的建设。早期的数据服务中存在不少问题,虽然在做运营Dashboard系统时,对后台数据服务进行了梳理,构建了数据处理的底层公共库等,但是仍然存在一些问题: 中间数据流失,计算结果没有共享。比如在很多数据报告中都会对同一个功能进行数据提取、分析,但是都是各自处理一遍,没有对结果进行共享。 数据分散在多个数据源,如MySQL、MongoDB、Elasticsearch,很难对多个源的数据进行联合使用、有效组织。 每个人都需要非常清楚产品业务逻辑才能正确原创 2020-08-13 22:27:14 · 277 阅读 · 1 评论 -
电商数仓脚本
我的脚本存放目录 /user/local/bin/注意:有些脚本涉及到用户和密码记得要改成自己的!路径有的也需要留意。-------------------------------------------------------------------目录1.xsync集群分发脚本2.zookeeper集群起动关闭脚本3.日志启动脚本4.时间同步脚本(用于造假数据)5.集群各个节点查看状态脚本6.日志采集 Flume 启动停止脚本7.Kafka 集群启动停止脚本8.日原创 2020-06-17 10:09:54 · 843 阅读 · 0 评论 -
数据仓库架构分层
数据仓库架构分层数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、DM(数据集市层)、APP(应用层)。ODS层:为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数据粒度上来说ODS层的数据粒度是最细的。ODS层的表通常包括两类,一个用于存储当前...原创 2019-11-27 20:41:53 · 444 阅读 · 0 评论 -
ODS& DWD& DWS& ADS 数仓分层
数仓分层ODS:Operation Data Store原始数据DWD(数据清洗/DWI )data warehouse detail数据明细详情,去除空值,脏数据,超过极限范围的明细解析具体表DWS(宽表-用户行为,轻度聚合)data warehouse service ----->有多少个宽表?多少个字段服务层--留存-转化-GMV-复购率-日活 、点赞、评论、收...原创 2019-11-15 16:54:28 · 18337 阅读 · 0 评论 -
数据仓库
数据仓库1.1 什么是数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。1.2 数据仓库能干什么?1)年度销售目标的指定,需要根据以往的历史报表进行决策,不能拍脑袋。2)...原创 2019-11-01 15:22:15 · 324 阅读 · 0 评论 -
什么是数据仓库
内容预览:可是,有一个猥琐男却偏偏想要统治整个世界~ Transform,数据转换,把原始数据转换成期望的格式和维度~ 主流的数据仓库有哪些? 这个Hive又是何方神圣呢? 确切地说,Hive是基...一个故事在很久很久以前,世界上生活着许多种族,有人类,有矮人,有...原创 2019-08-27 23:28:50 · 3197 阅读 · 2 评论 -
ETL详细讲解
ETL详细讲解ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。 ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ET...原创 2019-08-27 23:04:35 · 3925 阅读 · 0 评论