数据仓库
文章平均质量分 77
以实战为线索,针对数据仓库中的概念以及建模方式进行详细说明,从而使一个小白变成大白~
小码良
无聊但有趣
展开
-
数仓维度建模之维度表技术基础
数仓维度建模之维度表技术基础01 维度表结构组成结构:主键 + 维度属性名词解释:主键:作⽤是与事实表的外键进⾏关联。维度属性:是⽤于描述维度特性的字段,⼀般作为 group by分组查询的条件。举个例⼦:时间维度表 时间id在时间维度表⾥作为主键存在,事实表中也存 在⼀个时间id与之关联,得到时间维度的⼀些维度属性02 ⼀致性维度概念:当不同的维度表的属性具有相同列名和领域内容时, 称维度表具有⼀致性。利⽤⼀致性属性与每个事实表 关联,可将来⾃不同事实表的信息合并到同⼀报表 中。原创 2021-09-18 11:32:19 · 691 阅读 · 0 评论 -
用户画像设计样例
用户画像资料需要资源的关注公众号’小码良’,并回复‘用户画像’,即可获取相关资源原创 2021-09-08 17:30:07 · 334 阅读 · 0 评论 -
生产环境-数据仓库组件之Kafka(二)《性能优化》
生产环境-数据仓库组件之Kafka(二)《性能优化》1、Heap Size的调整vim kafka-server-start.sh默认配置:KAFKA_HEAP_OPTS="-Xmx1G -Xms1G"调整为:KAFKA_HEAP_OPTS="-Xmx4G -Xms4G"推荐配置:一般HEAP SIZE的大小不超过主机内存的50%。vim server.properties(2-8都是在该文件配置)2、网络和ios操作线程配置优化:默认配置:broker处理消息的最大线程数num.原创 2021-06-23 15:37:37 · 196 阅读 · 0 评论 -
生产环境-数据仓库组件之Kafka(一)
数据仓库组件之Kafka(一)1、调整参数安装Kafka,进行service.properties参数的调整(3台都进行调整)# 每个机器的唯一表示,这个作用类似于zookeeper中的myid文件和HDFS中的slaves文件broker.id=0# 配置kafka和zookeeper之间的连接端口和列表,因为kafka是依赖于zookeeper的zookeeper.connect=cdh01:2181,cdh02:2181,cdh03:2181# 指定Kafka持久化消息的目录,Kafka原创 2021-05-14 14:52:16 · 250 阅读 · 0 评论 -
生产环境-数据仓库组件之Flume
数据仓库组件之Flume一、前言 Flume是一个可以收集日志等数据资源,并将这些庞大的数据从各项数据源中集中起来存储的高可用,分布式的工具,其设计的原理也是基于数据流。二、架构1 架构示意图2 架构说明:根据我们公司的业务架构,生产环境的服务器基本上是两台,所产生的日志数据分别存放在自己的本地路径下,并没有在大数据集群的服务器上,所以我们需要Flume子节点将日志数据传输到大数据集群。通过我们大数据集群上的Flume再下沉到Kafka集群在下沉到Kafka集群时,需要遵守Kafka原创 2021-05-14 14:27:02 · 260 阅读 · 2 评论 -
数仓维度建模之维度表设计(设计实操二)
概述维度建模是一种将数据结构化的逻辑设计方法,它将客观世界划分为度量和上下文。度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称之为维度。它与实体-关系建模有很大的区别,实体-关系建模是面向应用,遵循第三范式,以消除数据冗余为目标的设计技术。维度建模是面向分析,为了提高查询性能可以增加数据冗余,反规范化的设计技术。维度建模优点事实表事实表存储了从...转载 2020-03-31 16:56:25 · 2908 阅读 · 1 评论 -
数仓维度建模之维度表设计(设计实操一)
数仓设计基本方法1、设计步骤:1)第一步:选择维度或新建维度。作为维度建模的核心,在企业级数据仓库中必须保证维度的唯一性。以淘宝商品维度为例,有且只允许有一个维度定义。2)第二步:确定主维表。此处的主维表一般是 ODS 表,直接与业务系统同步。以淘宝商品维度为例,s_auction_ auctions是与前台商品中心系统同步的商品表,此表即是主维表。3)第三步:确定相关维表。数据仓库...原创 2020-03-25 10:56:47 · 2687 阅读 · 0 评论 -
数仓维度建模之维度表设计(基础概念二)
数仓维度建模之维度表设计(基础概念二)10、交叉探查1)定义将不同数据域的商品额事实合并在一起进行数据探查,称为交叉探查2)示例如日志中的商品维度的pv、uv和交易域中商品维度的下单GMV,结合两者计算转化率等11、数仓1)定义是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。12、维度中的垂直1)定义垂直变化是指,维度内的属性的多与少之间的变...原创 2020-03-19 10:32:52 · 832 阅读 · 0 评论 -
数仓维度建模之维度表设计(基础概念一)
数仓维度建模之维度表设计(基础概念一)1、事实&度量对业务过程的度量称为事实2、维度是什么1)维度定义在维度建模中,将度量称为“事实”,将环境描述为“维度”,维度是用于分析事实所需要的多样环境2)维度属性维度所包含的表示维度的列,称为维度属性 如开门方式是维度,具体11种方式是维度属性3)维度作用维度属性是查询约束条件、分组和的基本来源,是数据报表标签生成易用性的关键。...原创 2020-03-18 16:24:37 · 3645 阅读 · 0 评论 -
数仓之基础概念汇集2
.....下面是我的公众号,收集了现在主流的大数据技能和架构,欢迎大家一起来学习交流。原创 2020-03-16 09:47:35 · 329 阅读 · 0 评论 -
数据仓库之拉链表
参考资料:http://cxy7.com/articles/2018/05/25/1527237216341.htmlhttp://cxy7.com/articles/2017/09/15/1505474223814.html#b3_solo_h2_2http://www.aboutyun.com/thread-12831-1-1.html什么是拉链表? 拉链表是针对数据仓库设计中...原创 2019-07-24 08:55:08 · 576 阅读 · 0 评论 -
数仓之基础概念汇集1
数仓概念汇集1、什么叫数据仓库?数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,它用于支持企业或组织的决策分析处理。数据仓库是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。首先,用于支持决策,...原创 2020-03-13 11:37:05 · 481 阅读 · 0 评论 -
初创大数据部门搭建数据仓库的过程3----主数据的梳理
一、主数据的含义--主数据指的是在集团范围内各系统之间共享的基础数据,通常长期存在且应用于多个系统,例如:项目信息,房产信息,员工信息二、主数据的管理现状主数据存储在多个,相互不连接的系统/数据库中主数据信息在多个不同的应用系统中被维护集团总部没有对全局主数据信息及时、一致、真实、可靠的视图无法管理的主数据必然是不准确、不完整、充满矛盾并会导致错误的业务决策三、主数据获取的目的...原创 2019-04-02 17:18:32 · 1179 阅读 · 0 评论 -
初创大数据部门搭建数据仓库的过程2----业务数据的梳理
搭建数据仓库的过程2----业务数据的梳理1、业务梳理的格式主题域 业务板块 业务域 业务过程 维度 维度属性 修饰类型 修饰词(列举) 原子指标 派生指标 按照这一格式,将调研的数据进行填充,进行迭代开发。迭代开发的优势在于既可以拿出个基本的方案,又可以对于缺少的内容进行补充。进行版本的更新,可以与产品那边划好边界,让产品那边对我们的每个版本进行验收,可以保...原创 2019-03-28 17:55:45 · 671 阅读 · 0 评论 -
初创大数据部门搭建数据仓库的过程1----业务调研
搭建数据仓库的过程1----业务调研1、业务调研的方式 - 借助产品部门提供的资料对整个项目进行了解 - 去和产品部门直接沟通调研两种方式有利有弊:1)第一种方式由于我们对他们所做的项目不是很熟悉,所了解到的也没有那么全面,对于产品部门提供的一些文档所定义的一些用语不了解; 2)第二种方式则会避免那种情况,但我们也知道,产品部门也有自己的任务,不会总有时间去给你讲解业务上的东西,所以...原创 2019-03-28 14:20:16 · 986 阅读 · 0 评论