数据仓库
文章平均质量分 77
数据仓库和数据库
斑马!
本科和研究生就读于某普通一本院校的计算机科学与技术专业,目前研究生三年级,暑期实习拿到美团,阿里,京东等大厂offer;秋招拿到了美团,京东,小米等大厂offer。方向是大数据开发工程师,主要做的是离线数仓和实时数仓这块。有想一起学习的小伙伴可以通过博客联系我!
展开
-
数据倾斜产生,原因及其解决方案
目录第七章 数据倾斜7.1 数据倾斜的产生,表现与原因7.1.1 数据倾斜的定义7.1.2 数据倾斜的危害7.1.3 数据倾斜发生的现象7.2 数据倾斜倾斜造成的原因7.3 几种常见的数据倾斜及其解决方案7.3.1 空值引发的数据倾斜7.3.2 不同数据类型引发的数据倾斜7.3.3 表连接时引发的数据倾斜7.3.4 group by分组时候key值分布不均7.3.5 count distinct去重的时候key值分布不均7.3.6 排序过程7.2.原创 2021-11-14 15:43:51 · 15148 阅读 · 4 评论 -
大数据--数据仓库--数据同步方式
第四章:同步策略/存储方式4.1 数据存储方式概述首先弄清楚,增量同步,快照同步,增量表,全量表,拉链表之间的关系。4.2 全量全量表无分区,每天凌晨流程执行完后,表中的数据是截至到前一天的全部MySQL数据。全量表可能会update数据,即对某条历史数据进行更新,保存最新的那条数据,一般只包含一个文件。如果需要追溯历史数据,需要存快照表进行操作。当然对于某些业务流水数据库只会新增,不会删改,或者我们不太关注历史数据信息,存全量表也没有问题。...原创 2021-09-08 17:20:20 · 1025 阅读 · 0 评论 -
大数据--数据仓库--事实表设计
目录第三章:事实表设计3.1 事实表设计原则3.2 事实表设计方法3.3 事实表分类3.3.1 事务事实表3.3.2 周期快照事实表3.3.3 累积快照事实表3.3.4 三种事实表比较第三章:事实表设计3.1 事实表设计原则原则1:尽可能包含所有与业务过程相关的事实事实表设计的目的是为了度量业务过程,所以应该分析那些事实与业务过程有关。在事实表中应该尽量包含所有与业务过程相关的事实,即使存在冗余。原则2:只选择与业务过程相关的事实...原创 2021-09-07 20:23:15 · 962 阅读 · 0 评论 -
大数据--数据仓库--缓慢变化维
2.4 缓慢变化维2.4.1 定义2.4.2 常见的处理方式2.4.3 新增维度行2.4.4 添加新的维度列2.4.5 增加微型维度2.4.6 实现方式2.4 缓慢变化维2.4.1 定义数仓的重要特点是反映历史变化,所以如何处理维度的变化是非常重要的。现实世界中维度的属性并不是一成不变的,它随着时间发生缓慢的变化,与数据增长较为快速的事实相比,维度变化相对缓慢,如何处理变化的维度是数仓经常要面对的问题。2.4.2 常见的处理方式 处理...原创 2021-09-06 16:48:20 · 701 阅读 · 0 评论 -
大数据--数据仓库--维度退化
2.3 维度退化不可能将所有与业务相关的维度分类到一个紧凑的表集合中。类似这样的情况,将一个或者多个维度存储到事实表中是合适的选择。采用这种方法,存储事实表中的维度列被称为退化维度,退化维度的过程称为维度退化。更为规范的定义是:当一个维度没有数据仓库需要的任何数据的时候就可以退化此维度,需要把退化的相关数据迁移到事实表中,然后删除退化的维度。与其他存储在维度表中的维度一样,退化维度也可以进行事实表的过滤查询,实现聚合操作等。那么究竟怎么定义退化维度呢?比如说订单id,...原创 2021-09-06 12:06:33 · 8058 阅读 · 3 评论 -
大数据--数据仓库--维度设计
目录第二章:维度设计2.1 维表层建设原则2.1.1 维度的基本概念2.1.2 维度的设计方法2.1.3 确定维度属性2.2 维度模型分类2.2.1 星型模型2.2.2 雪花模型2.2.3 星座模型第二章:维度设计2.1 维表层建设原则2.1.1 维度的基本概念维度是维度建模的基础和灵魂。在维度建模中,将度量称为“事实”,将环境描述为“维度”。维度是用于分析事实所需要的多样环境。例如,在分析交易过程中,可以通过买家,卖家,商品和时间等维...原创 2021-09-05 17:01:33 · 614 阅读 · 0 评论 -
大数据--数据仓库--数仓分层架构及建模原则
目录1.3 数据分层架构1.3.1分层架构示意图1.3.2.数据 流向1.3 建模原则1.3.1 规范定义1.3.2 建模原则1.3 数据分层架构1.3.1分层架构示意图1.3.2.数据流向1.3 建模原则1.3.1 规范定义规范定义指以维度建模作为理论基础,构建总线矩阵,划分和定义数据域,业务过程,维度,度量、原子指标,修饰类型,修饰词,时间周期,派生指标。1.现在对一些常用的名词术语进行解释 数据域 ...原创 2021-09-03 16:50:50 · 1989 阅读 · 0 评论 -
大数据--数据仓库--数仓分层和架构
目录1.1 数仓分层规范1.1.1 为什么需要数据建模1.1.2 维度模型1.1.3 标准数仓分层1.1.4 其他数仓分层1.2 常见的数据架构1.2.1 传统关系数据库--范式建模1.2.2 .Kimball架构和Inmon架构1.1 数仓分层规范1.1.1 为什么需要数据建模大数据系统需要数据模型方法来帮助更好的组织和存储数据,以便在性能,成本,效率和质量之间取得最佳平衡。 性能:良好的数据模型能够帮我们快速查询所需要的数据,减少...原创 2021-09-02 21:39:49 · 644 阅读 · 0 评论 -
大数据--数据仓库--数据仓库分层总结
一:数仓分层(标准五层) 电商数仓建设:采用flume,kafka导入日志数据,采用sqoop导入业务数据。接着进行数仓分层建模。ods层: 保持数据原貌,不做任何修改,起到数据备份作用; 创建分区表,防止后续全表扫描 采用压缩,减少磁盘存储空间。 补充orc格式:列式存储,有多种文件压缩方式,并且有很高的压缩比;文件是可切分的,提供 多种索引。dwd层: 描述业务事实。具体建模过程:选择业务过程-- 声明粒度 -- 确认维...原创 2021-08-31 15:11:55 · 989 阅读 · 0 评论 -
大数据--数据仓库9--查漏补缺
1.hive中不支持where条件中有子查询2.mysql建表的时候可以指定primary key, key。3.mysql中清空表名使用truncate table 表名4.动态分区的设置:set hive.exec.dynamic.partition = true5.一致性:维度一致性,命令一致性,代码一致性6.order by时候null值处理:row_number() over(partition by id order by job desc null last)即:原创 2021-07-04 23:23:10 · 261 阅读 · 3 评论 -
大数据--数据仓库8--数仓建模
一:数仓建模原则1.1 原子数据需要详细 维度建模应该使用最基础的原子数据进行填充,以支持不可预知的来自用户查询的过滤和分组请求。用户通常不希望每次只看到一个单一的记录,但是你无法预测用户想要掩盖或者显示那些数据。1.2 相同的粒度或者同级的详细程度 在组织事实表时候,粒度有三个基本原则:事务,周期快照,累加快照。无论粒度如何,事实表中的度量单位都必须达到相同水平的详细程度;如果事实表中的事实表现的粒度不一样,企业用户容易混淆,BI应用程序也会随之变得不堪一击,从而导致返回的结果...原创 2021-07-04 18:34:32 · 364 阅读 · 0 评论 -
大数据--数据仓库7--建模和同步方式和建模技术补充
目录一:表的分类/同步方式1.1 全量表:1.2 快照表1.3 增量表1.4 拉链表2.各同步方式区别2.1:增量表不约束分区与全量表区别?2.2 三种表数据和分区区别2.3 经典例子3.数据一致性检查3.1 什么是数据一致性3.2 如何检查一:表的分类/同步方式1.1 全量表:注意:一般以_all为后缀。全量表无分区,每天凌晨流程执行完后,表中的数据是截止到前一天的全部mysql数据。(全量表可能会使用update数据,即对某条历史数据进原创 2021-07-04 17:46:38 · 237 阅读 · 0 评论 -
大数据--数据仓库6--doris深入总结
目录一:doris角色二:doris关键特性三:分区和分桶四:rollup4.1作用:4.2 概念:4.3 rollup说明五:前缀索引六:数据模型6.1 aggregate聚合模型6.1.1 导入数据聚合6.1.2 保留明细数据6.2.3 导入数据与已有数据聚合6.1.4 局限性6.2 uniq主键模型6.3 duplicate明细模型6.4 数据模型的选择建议七.mysql和doris区别八:总结一:doris角色二原创 2021-07-03 16:29:25 · 4693 阅读 · 0 评论 -
大数据--数据仓库1--电商数据仓库项目最全总结1
目录一:项目来源:二:数据仓库概念2.1 业务数据2.2用户行为数据2.3数据仓库结构图三:项目需求及架构设计3.1项目需求分析3.2.1 技术选型3.2.2 系统数据流程设计3.2.3 框架版本选型3.2.4测试集群服务器规划四:数据生成模块4.1目标数据五:数据采集模块六:电商业务简介6.1电商业务流程6.2电商业务表结构七 业务数据采集模块7.1 Mysql安装,配置7.2 业务数据生成:sql脚本7.3 Sqoop.原创 2021-04-15 21:42:57 · 5919 阅读 · 0 评论 -
大数据--数据仓库4--建模/架构
一:数据建模原则高内聚和底耦合 将业务xiang'jin原创 2021-06-07 21:30:54 · 225 阅读 · 3 评论 -
大数据--数据仓库2--电商数据仓库项目最全总结2
一:一个基本的数据仓库应该包含哪些功能模块 包含数据采集,数仓分层,任务调度,数据可视化,即席查询,权限管理,元数据管理,数据质量监控,集群xi原创 2021-05-29 23:24:28 · 1160 阅读 · 0 评论 -
大数据--数据仓库3--数据质量/元数据/数据治理
一:数据一致性如何保证1.1 数据不一致性的体现同样的指标来自两张不同的表,结果不一样 同样的指标,数据源自同一张表,但是是2个需求,指标口径不统一。 同一个指标,命名不一样,导致重复计算。 不同的两个指标,命名一样,导致产生误解1.2 数据一致性的目标从设计,开发,部署和使用层面,避免重复建设和指标冗余建设,从而保障数据口径的规范和统一,最终实现数据资产全链路关联,提供标准数据输出以及建立统一的数据公共层。二:数据质量管理三:元数据管理四:Clickhous...原创 2021-06-07 15:32:35 · 1307 阅读 · 0 评论