![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数仓建设
文章平均质量分 91
数仓建设
浊酒南街
纵使疾风起,人生不言弃。
展开
-
Hive之Map常用方法
实际工作中,有时会出现map复杂数据类型,字段field1形式如:{‘k0’:‘abc’,‘k1’:‘01,02,03’,‘k2’:‘456’},如果是string形式,我们可以适用get_json_object 函数,取出对应的value值,具体如:get_json_object(field,‘$.k0’),即可取出值abc,如果是map数据类型,这个值该怎么取呢?可以适用field[‘k0’]这种形式取出abc,顺便把map数据类型的常用方法做个总结;原创 2022-09-20 22:10:12 · 8381 阅读 · 0 评论 -
数仓第三篇:详解维度建模之事实表!
第二种:全量快照 状态有变化,每天的分区存储昨天的全量数据和当天的增量数据合并的结果,对于数据量在可控范围内的情况可以采用如下 保存策略: 如果存储空间和成本可接受,完整存储,确保能够追溯到历史每天数据状态 存储空间有限,考虑移动历史快照数据到冷盘,需要使用的时候可恢复 数据历史状态数据无太大价值,可以考虑部分删除,比如近保留每月最后一天的快照数据;相对于明细事实表,聚合事实表通常是在明细事实表的基础上,按照一定的粒度粗细进行的汇总、聚合操作,它的粒度较明细数据粒度粗,同时伴随着细节信息的丢失;...原创 2022-08-15 21:01:36 · 583 阅读 · 0 评论 -
数仓第6篇:大数据可视化BI工具
Pentaho是一个以工作流为核心的、强调面向解决方案而非工具组件的BI套件,具有商业智能(BI)组件,整合了多个开源项目,使得公司可以开发商业智能问题的完整解决方案,目标是和商业BI相抗衡。FineBI是一套企业数据化管理和可视化BI的方案,集成了Alluxio 、Spark、 HDFS、zookeerer等大数据组件,引擎支撑前端快速地展示分析,真正实现亿级数据,秒级展示。内存型的BI工具,数据处理速度很大程度上依赖内存大小,Qlikview处理数据输入,是将其保存在多个用户的内存中。...原创 2022-08-16 23:40:35 · 1625 阅读 · 0 评论 -
数仓系列第10篇:数据治理
通过本次概念层面的梳理,我们将数据工作的体系框架、架构规范、平台管理等方面进行了一些总结。目前,数据中台建设的落地工作也在推进,4P平台的建设工作正在有序实施,也希望上面的概念梳理能够给大家对相关工作的理解提供一些帮助。欢迎关注公众号,一起进步!原创 2022-08-19 23:02:29 · 1062 阅读 · 0 评论 -
数仓系列第8篇:架构规范
☆ 核心模型与扩展模型分离:建立核心模型与扩展模型体系,核心模型包括的字段支持常用核心的业务,扩展模型包括的字段支持个性化或是少量应用的需要。例如,在一个超市里,商品的布局都有特定的规范,商品摆放的位置是按照消费者的购买习惯以及人流走向进行摆放的。以分析的主题对象为建模驱动,基于上层的应用和产品的指标需求,构建公共粒度的汇总指标事实表,以宽表化手段来物理化模型。它的主要作用是完成数据加工与整合、建立一致性的维度、构建可复用的面向分析和统计的明细事实表以及汇总公共粒度的指标。原创 2022-08-19 22:50:31 · 191 阅读 · 0 评论 -
数仓第四篇:名词解析及关系
比如说订单id,这种量级很大的维度,没必要用一张维度表来进行存储,而我们进行数据查询或者数据过滤的时候又非常需要,所以这种就冗余在事实表里面,这种就叫退化维度,citycode这种我们也会冗余在事实表里面,但是它有对应的维度表,所以它不是退化维度。对于有歧义的标签,我们内部可进行标签区分,比如:苹果,我们可以定义苹果指的是水果,苹果手机才指的是手机。退化维度,就是那些看起来像是事实表的一个维度关键字,但实际上并没有对应的维度表,就是维度属性存储到事实表中,这种存储到事实表中的维度列被称为退化维度。...原创 2022-08-15 21:16:39 · 363 阅读 · 0 评论 -
实时数仓方案如何选型和构建
本文介绍了市面上常见实时数仓方案,并对不同方案的优缺点进行了介绍。在使用过程中我们需要根据自己的业务场景选择合适的架构。另外想说明的是实时数仓方案并不是“搬过来”,而是根据业务“演化来”的,具体设计的时候需要根据自身业务情况,找到最适合自己当下的实时数仓架构。...原创 2022-08-15 21:38:39 · 1189 阅读 · 0 评论 -
关于数仓建设及数据治理的超全概括
1、用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。2、通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。数据仓库之父 Bill Inmo原创 2022-07-06 22:34:26 · 1272 阅读 · 0 评论 -
数仓系列第7篇:数仓OLAP技术
唯独在OLAP领域,百家争鸣,各有所长。OLAP引擎/工具/数据库,技术选型可有很多选择,传统公司大多以Congos、Oracle、MicroStrategy等OLAP产品,互联网公司则普遍强势拥抱开源,如 Presto,Druid ,Impala,SparkSQL,AnalyticDB,(Hbase)Phoenix,kudu, Kylin,Greenplum,Clickhouse, Hawq, Drill,ES等。HOLAP,混合模型,细节数据以ROLAP存放,聚合数据以MOLAP存放。......原创 2022-08-18 22:30:08 · 1113 阅读 · 0 评论 -
数仓系列第11篇:实时数仓
数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越大,数据格式越来越多,决策要求越来越苛刻,数据仓库技术也在不停的发展。数据仓库的趋势:实时数据仓库以满足实时化&自动化决策需求;原创 2022-08-20 17:43:37 · 1430 阅读 · 0 评论 -
数仓第一篇:基础架构
技术选型,传统数仓一般以Oracle、greenplum、teradata 等,互联网数仓一般以Hadoop生态圈为主,离线以Hive为核心,准实时以spark为核心,实时以flink为核心构建。技术选型,传统数仓一般以Oracle、greenplum、teradata 等,互联网数仓一般以Hadoop生态圈为主,离线以Hive为核心,准实时以spark为核心,实时以flink为核心构建。数据安全,可包含以下五方面的内容,即数据的保密性、真实性、完整性、未授权拷贝和所寄生系统的安全性。...原创 2022-08-08 21:35:24 · 752 阅读 · 0 评论 -
数仓第5篇:『数据魔法』ETL
而数据源多为业务系统,埋点日志,离线文件,第三方数据等。各种join、嵌套/标量子查询,强大的分析/窗口函数,变化无穷的正则表达式,层次查询,扩展分组,MODEL,递归with,多维分析,排列组合,行列互转,json解析,执行计划,四大类型(dql、dml、ddl、dcl)等,依然需要每个etl·er熟悉掌握。Kettle,中文名:水壶,是一款国外免费开源的、可视化的、功能强大的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。.........原创 2022-08-16 23:27:40 · 1172 阅读 · 0 评论 -
数仓系列第9篇:数据质量
数据质量:一个评估规则维度提供一种测量与管理信息和数据的方式。区分规则维度有助于:将维度与业务需求相匹配,并且划分评估的先后顺序;了解从每一维度的评估中能够/不能够得到什么;在时间和资源有限的情况下,更好地定义和管理项目计划中的行动顺序。数据质量检核主要分为以下规则维度:☆完整性(Completeness):用来描述信息的完整程度。☆唯一性(Uniqueness):用来描述数据是否存在重复记录,没有实体多余出现一次。☆有效性(Validity):用来描述模型或数据是否满足用户定义的条件。原创 2022-08-19 22:57:25 · 854 阅读 · 0 评论 -
数仓第二篇: 数据模型(维度建模)
model对于数仓是最核心的东西,数据模型是数据组织和存储方法,模型的好坏,决定了数仓能支撑企业业务多久。为什么大多数企业,数仓都要重建,这不仅仅是业务拓展、发展迅速,很大一部分是因为模型建的很烂。对于数仓而言,模型就是命脉,好与坏直接决定企业数据存储、处理和应用。对于维度建模,真正理解了粒度和一致性维度,也就理解了维度建模的魂。对于建模工具,没有最好只有更好,适合业务的就是最好的。...原创 2022-08-08 21:58:05 · 833 阅读 · 0 评论 -
数仓埋点体系与归因实践
导读当今是流量为王时代,严选作为电商,流量建设就显得尤为重要。流量数据建设比业务数据困难,因为其数据源本身是一些半结构化的数据,没有分析维度的概念,而且流量的数据杂、脏、乱,对数据的检验、整合、治理的难度就会更大,本文将从整个流量链路阐述展开介绍。...原创 2022-08-01 22:05:06 · 1430 阅读 · 0 评论 -
实时数据仓库的演进
数据处理现状当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题实时数仓建设和大数据架构的批流一体建设。...原创 2022-07-14 23:11:50 · 247 阅读 · 0 评论 -
有道教育数仓建设实践
划分数据域,构建业务过程与维度关系矩阵,总线矩阵中行表示业务过程,列表示维度,通过总线矩阵梳理业务过程和维度关系,是模型设计过程的基本工具,以此来保证维度跨多业务过程的一致性,以及防止在事实表设计时遗漏关联维度。在设计明细表和维度表的时候,采用垂直切分的方式,将常用字段保留在核心模型,将一些大字段、个性化或者少量应用的字段剥离到扩展模型,常用杂项维度的方式,保证核心模型的简洁。冗余常用维度信息至事实表中,提高模型使用效率,冗余的过程中应尽量使用已经开发好的维表,保证维度属性的逻辑一致性。原创 2022-10-09 23:20:03 · 626 阅读 · 0 评论