数据仓库
整理复习数据仓库方面的知识
Lestat.Z.
lestatzhang.com
展开
-
Hive中使用parquet
如何创建parquet外部表CREATE EXTERNAL TABLE IF NOT EXISTS XXXX (...)STORED AS PARQUETLOCATION '/data/hive/xxxx'TBLPROPERTIES ('parquet.compression'='SNAPPY')Parquet字段定义与Hive表中字段的关系如果hive表定义的字段包含且大于parquet文件字段,则parquet文件不存在的字段被查询为NULLparquet文件可以包含hive表定义原创 2020-05-19 14:27:16 · 1878 阅读 · 0 评论 -
hive中匹配反斜杠\
今天在做查询时候需要匹配某个字段中的反斜杠\,测试了一下,可以使用以下方法select name from my_table where name != regexp_replace(name,'\\\\','\\\\\\\\');本来想使用like 加 %来匹配的,但是一直无效,猜测是\转义的优先级比较高所以换一个思路,将每个字段中的’\‘的数量翻倍,这样,不含’\'的字段值不变。...原创 2019-12-09 21:42:50 · 3384 阅读 · 0 评论 -
[数据仓库复习] ——数据仓库设计基础总结
小结关系模型、多维模型和Data Vault模型是三种常见的数据仓库模型。数据结构、完整性约束和SQL语言是关系模型的三个要素。规范化是通过应用范式规则实现的。第一范式(1NF)要求保持数据的原子性、第二范式(2NF)消除了部分依赖、第三范式(3NF)消除了传递依赖。关系模 型的数据仓库一般要求满足3NF。事实、维度、粒度是维度模型的三个核心概念。维度模型的四步设计法是选择业务流程、声...原创 2019-05-30 11:20:11 · 690 阅读 · 0 评论 -
[数据仓库复习] —— 数据仓库实施步骤
数据仓库实施步骤前言1. **定义范围**2. **确定需求**3. **逻辑设计**4. **物理设计**5. **装载数据**6. **访问数据**7. **管理维护**参考资料前言实施一个数据仓库项目的主要步骤是:定义项目范围、收集并确认业务需求和技术需求、逻辑设计、物理设计、从源系统向数据仓库装载数据、使数据可以被访问以辅助决策、管理和维护数据仓库。1. 定义范围在实施数据仓库前,...原创 2019-05-30 11:05:15 · 1787 阅读 · 0 评论 -
[数据仓库复习] —— 数据集市
数据集市数据集市数据集市的概念数据集市与数据仓库的区别数据集市设计数据仓库实施步骤参考资料数据集市数据集市的概念数据集市是数据仓库的一种简单形式,通常由组织内的业务部门自己建立和控制。一个数据集市面向单一主题域,如销售、财务、市场等。数据集市的数据源可以是操作型系统(独立数据集市),也可以是企业级数据仓库(从属数据集市)。数据集市与数据仓库的区别不同于数据集市,数据仓库处理整个组织范围内...原创 2019-05-29 15:08:33 · 1516 阅读 · 0 评论 -
[数据仓库复习] —— 雪花模式
雪花模式雪花模式1. 数据规范化与存储2. 优点3. 缺点4.示例参考资料雪花模式雪花模式是一种多维模型中表的逻辑布局,其实体关系图有类似于雪花的形状,因此得名。与星型模式相同,雪花模式也是由事实表和维度表所组成。所谓 的“雪花化”就是将星型模式中的维度表进行规范化处理。当所有的维度表完成规范化后,就形成了以事实表为中心的雪花型结构,即雪花模式。将维度表进行规范化的具体做法是,把低基数的属性从...原创 2019-05-29 14:24:11 · 3836 阅读 · 0 评论 -
[数据仓库复习] —— 星型模式
文章目录星型模式1. 事实表2. 维度表3. 优点4. 缺点参考资料星型模式星型模式是维度模型最简单的形式,也是数据仓库以及数据集市开发中使用最广泛的形式。星型模式由事实表和维度表组成,一个星型模式中可以有一个或多个事实表,每个事实表引用任意数量的维度表。星型模式的物理模型像一颗星星的形状,中心是一个事实表,围绕在事实表周围的维度表表示星星的放射状分支,这就是星型模式这个名字的由来。星型模式...原创 2019-05-28 19:04:36 · 3414 阅读 · 0 评论 -
[数据仓库复习] —— 维度数据模型
维度数据模型维度数据模型建模过程1. 选择业务流程2. 声明粒度3. 确认维度4. 确认事实维度规范化维度数据模型的特点参考资料维度数据模型简称维度模型(Dimensional modeling, DM),是一套技术和概念的集合,用于数据仓库设计。不同于关系数据模型,维度模型不一定要引入关系数据库。 在逻辑上相同的维度模型,可以被用于多种物理形式,比如维度数据库或是简单的平面文件。根据数据仓库大...原创 2019-05-28 18:38:49 · 1226 阅读 · 0 评论 -
[数据仓库复习] 数据仓库简介小结
小结数据仓库是一个面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理者的决策过程。数据仓库中的粒度是指数据的细节或汇总程度,细节程度越高,粒度级别越低。数据仓库的数据来自各个业务应用系统。很多因素导致直接访问业务系统无法进行全局数据分析的工作,这也是需要一个数据仓库的原因所在。操作型系统是一类专门用于管理面向事务的应用信息系统,而分析型系统是一种快速回答多维分析查询的实现...原创 2019-05-28 10:18:27 · 353 阅读 · 0 评论 -
[数据仓库复习] 数据仓库需求
数据仓库需求基本需求1. 安全性2. 可访问性3. 自动化数据需求1. 准确性2. 时效性3.历史可追溯性参考资料基本需求数据仓库的目的就是能够让用户方便地访问大量数据,允许用户查询和分析其中的业务信息。这就要求数据仓库必须是安全的、可访问的和自动化的。1. 安全性数据仓库中含有机密和敏感的数据。为了能够使用这些数据,必须有适当的授权机制。这意味着只有被授权的用户才能访问数据,这些用户在享...原创 2019-05-28 10:14:52 · 763 阅读 · 1 评论 -
[数据仓库复习] 抽取-转换-装载
抽取-转换-装载前言数据抽取1. 逻辑抽取全量抽取增量抽取2. 物理抽取联机抽取脱机抽取3.变化数据捕获数据转换数据装载开发ETL系统的方法常见ETL工具参考资料前言ETL一词,它是Extract、Transform、Load三个英文单词首字母的简写,中文意为抽取、转换、装载。ETL是建立数据仓库最重要的处理过程,也是最体现工作量的环节,一般会占到整个数据仓库项目工作量的一半以上。抽取: ...原创 2019-05-27 18:41:16 · 1539 阅读 · 0 评论 -
[数据仓库复习] 数据仓库架构
数据仓库架构基本架构主要数据仓库架构1. 数据集市架构2. Kimball数据仓库架构3. 混合型数据仓库架构操作数据存储参考资料基本架构“架构”是什么?这个问题从来就没有一个准确的答案。在软件行业,一种被普遍接受的架构定义是指系统的一个或多个结构。结构中包括软件的构建(构建是指软件的设计与实现),构建的外部可以看到属性以及它们之间的相互关系。这里参考此定义,把数据仓库架构理解成构成数据仓库的...原创 2019-05-27 10:31:49 · 1209 阅读 · 0 评论 -
[数据仓库复习] 操作型系统与分析型系统
操作型系统与分析型系统前言操作型系统操作型系统的特性1. 操作型系统的数据库操作2.操作型系统的数据库设计分析型系统1.分析型系统的数据库操作2.分析型系统的数据库设计操作型系统和分析型系统对比参考资料前言操作型系统完成组织的核心业务,例如下订单、更新库存、记录支付信息等。这些系统是事务型的,核心目标是尽可能快地处理事务,同时维护数据的一致性和完整性。分析型系统的主要作用是通过数据分析评估...原创 2019-05-26 22:46:47 · 1270 阅读 · 0 评论 -
[数据仓库复习] 什么是数据仓库
什么是数据仓库什么是数据仓库数据仓库的定义建立数据仓库的原因参考资料什么是数据仓库本质上,数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。数据仓库概念的提出,是为了解决和这个数据流相关的各种问题,主要是解决多重数据复制带来的高成本问题。数据仓库的定义数据仓库之父Bill Inmon在1991年出版的Building the Data Warehouse 一书中首次提出了被广...原创 2019-05-26 21:48:07 · 292 阅读 · 0 评论 -
sqoop export to teradata时出现java.lang.NullPointerException
在使用sqoop export时指定了 --driver com.teradata.jdbc.TeraDriver测试时候会出现以下错误:Error: java.lang.NullPointerException atcom.teradata.tdgss.jtdgss.TdgssconfigApi.GetMechanisms (Unkown Source) atcom.teradata.t...原创 2019-03-13 11:12:56 · 3323 阅读 · 0 评论 -
ETL工具Talend最佳实践
文章目录前言最佳实践前言和Talend这款软件打交道有一段时间了,主要用它来做一些ETL相关的作业开发,以下总结了一些自己开发配置与过程中的最佳实践。最佳实践可以通过修改Talend Studio 的 .ini 配置文件来给其分配更多的内存,例如,以下是我在64位8GB内存的电脑配置的参数-vmargs -Xms2014m -Xmx4096m -XX:MaxPermSize=...原创 2019-03-01 21:23:45 · 10720 阅读 · 4 评论 -
[TD笔记]Teradata XML
简介Teradata数据库 (以下简称TD) 为存储和处理XML数据提供以下支持:XML数据类型,允许用户以紧密二进制形式存储XML内容,用来保留XML文档的信息集支持常见XML操作,如解析,验证,转换(XSLT)和查询(XPath和XQuery)等和方法用于查询和转换XML内容的XQuery查询语言存储过程,允许用户以XML格式发布SQL查询的结果粉碎功能,允许用户从XML文档中提...原创 2019-02-16 12:11:16 · 4433 阅读 · 0 评论 -
[TD笔记]Teradata数据压缩
工作上需要研究Teradata CLOB类型,因为去看了官方文档,自己做了点笔记如下:Teradata数据压缩概况本章描述了几种数据压缩选项,它能够帮助你减少磁盘空间的使用,在某种情况下,还可以提高I/O性能。多值压缩(MVC)算法压缩(ALC)行压缩行标题压缩自动压缩哈希索引和连接索引行压缩块级压缩(BLC)压缩的目标是利用最少的位数(bits)来准确的表示信息。压缩...原创 2019-02-16 11:59:10 · 4772 阅读 · 0 评论