数据仓库
wenfei1997
这个作者很懒,什么都没留下…
展开
-
数据库中的并发事务,及并发事务的两种机制
数据库中并发事务出现的问题为了解决数据库并发事务时,可能会产生的数据不一致,数据库提供了隔离级别和锁。数据库中并发事务出现的问题1)脏读:数据库并发访问的情况下,不同的事务对同一条数据操作,事务A修改数据未提交时,事务B读取了该数据修改后的结果,但事务A回滚rollback,未提交。导致事务...原创 2020-08-12 16:42:27 · 325 阅读 · 0 评论 -
数据仓库-知识点-思维导图1
数据仓库-知识点-思维导图1原创 2020-10-15 11:19:42 · 799 阅读 · 2 评论 -
数据仓库hive调优经验总结
hive是数据仓库,主要涉及到对海量数据的存储和读取,以及数据的处理。数据的存储和读取基本是基于hadoop的hdfs,所以要进行的优化就是提高数据的传输速度,可以通过配置参数(map和reduce阶段),优化hive的性能(如:在map阶段设置task的数量mapred.min.split.size:通过调整max可以起到调整map数的作用,减小max可以增加map数,增大max可以减少map数。)。数据的处理就是hsql,hsql本质上是转换为mapreduce来处理数据,对于性能的优化,就是一些转载 2020-09-18 19:32:55 · 250 阅读 · 0 评论 -
数据仓库的四个特性、主流架构
数据仓库的四个特性1.面向主题:数据仓库的数据按照一定的主题域进行组织。2.集成性:数据仓库的数据是从原有分散的数据库中抽取、清洗、消除数据的不一致性。(不一致性来自于异构的数据源)3.不可更新:企业主要是利用数据仓库中的历史数据进行分析决策,所以数仓中的数据很少会被修改或删除,只需定期加载和刷新。4.反映历史变化:数据仓库中有一个时间维度,记录数据的历史轨迹,通过历史数据,可以做定量分析和预测数据仓库主流架构:数据缓冲层:将数据从数据源导入数据仓库。操作数据存储:按照业务归属存储数据,同时对原创 2020-09-04 11:35:36 · 1983 阅读 · 0 评论 -
数据库 常用缩写
数据库 常用缩写Data:数据DataBase(DB):数据库DataBase Management System(DBMS) :数据库管理系统Data Definition Language (DDL):数据定义语言Data Manipulation Language(DML):数据操纵语言Data Control Language(DCL):数据控制语言DataBase System(DBS):数据库系统:指在计算机系统中引入数据库后的系统,一般由数据库、数据库管理系统(及其开发工具)、应原创 2020-09-04 10:14:21 · 9764 阅读 · 0 评论 -
数据管道(data pipeline)和ETL管道(ETL pipeline)的概念和区别
数据管道(data pipeline)和ETL管道(ETL pipeline)的概念和区别ETL管道:将数据从系统中抽取出来加载到数据仓库或者数据库中,再对其进行转换,这个过程就是ETL管道。数据管道是比ETL管道更通用的概念,只要是实现系统之间数据迁移的处理过程就可以称为数据管道。数据管道并不一定以将数据加载到数据库或数据仓库为结束,举个例子,它也可以通过webhook的方式来触发其他业务系统的业务流程。...原创 2020-09-04 09:54:51 · 2915 阅读 · 0 评论 -
数据仓库——ODS/stg层数据漂移问题
数据仓库——ODS/stg层数据漂移问题数据漂移是ODS数据的一个顽疾,通常是指ODS表的同一个业务日期数据中包含前一天或后一天凌晨附近的数据或者丢失当天变更数据。数据漂移的处理方式:1)多获取后一天的数据2)通过多个时间戳字段限制时间来获取相对准确的数据。...原创 2020-08-29 21:34:32 · 2471 阅读 · 0 评论 -
数据仓库的数据体系和数据加工链路
数据仓库的数据体系和数据加工链路1. 数据体系数据仓库的数据体系主要分为数据采集、数据计算、数据服务和数据应用。1)数据采集层数据采集体系包括web端日志采集技术方案和app端日志采集技术方案。数据采集分为日志采集和数据库数据同步两部分。对大数据系统而言,数据同步指数据从业务系统同步进入数据仓库和数据从数据仓库同步进入数据服务和数据应用两个方面。2)数据计算层数据计算层包括Maxcompute离线计算平台、Streamcompute实时计算平台、Onedata数据整合及管理体系。从数据计算频率的角原创 2020-08-27 17:21:31 · 1343 阅读 · 0 评论 -
数仓整体架构体会
数仓整体架构体会1.数据仓库的stg阶段的数据来源于日志采集和离线数据采集。对离线数据开发,包括数据开发平台和任务调度系统,数据开发平台对数据进行计算和整理,任务调度系统对作业进行调度,调度方式包括时间触发、依赖触发和时间+依赖出发。作业的状态有成功、准备中和等待(附任务未完成)。2.在odm层、idm层和sdm层建立数据模型,对数据进行开发。数据模型是指数据组织和存储方法,强调从业务、数据存取、使用角度来合理存储数据。建立数据模型的方法包括维度建模和三范式建模,根据不同的需求建立选择不同的模型。原创 2020-08-27 16:54:09 · 390 阅读 · 0 评论 -
hive常用函数
hive常用函数1)#round()四舍五入select round(1.3);2) #Ceil()向上取整select ceil(4.1);3) #sqrt()开平方根select sqrt(1.2)4) #abs()取绝对值select abs(-3)5) #greatest()取一组数中的最大值select greatest(1.2, 3, 2)6) #least()取一组数中的最小值select least(1.2, 3, 2)7) #cast(…原创 2020-08-27 16:45:55 · 931 阅读 · 0 评论 -
hive中排名函数row_number() over()、rank() over()、dense_rank() over()
hive中排名函数row_number() over()、rank() over()、dense_rank() over()1)row_number() over()函数row_number() OVER (PARTITION BY COL1 ORDER BY COL2 [desc])表示根据COL1分组,在分组内部根据 COL2排序,而此函数计算的值就表示每组内部排序后的顺序编号(组内连续的唯一的)empid deptid salary1 10原创 2020-08-27 16:22:08 · 1409 阅读 · 0 评论 -
数据仓库——存储优化管理方法
数据仓库——存储优化管理方法存储优化管理的方式包括数据压缩、数据重分布、存储治理项优化、生命周期管理等方法。数据压缩在分布式文件系统中,会将数据存储3份,这意味着存储1TB的逻辑数据,实际上会占用3TB的物理空间。使用盘古RAID file格式的文件,将存储比从1:3提高至1:1.5。这样做的缺点是数据块损坏时的修复时间比原来更长,读的性能也有损失。数据重分布由于每个表的数据分布不同,插入顺序不同,导致压缩效果有很大的差异,通过修改表的数据重分布(distribute by, sort by字段原创 2020-08-27 16:20:24 · 874 阅读 · 1 评论 -
大数据中Map端数据倾斜
大数据中Map端数据倾斜map端是mapreduce任务的起始阶段,map端的主要功能是从磁盘中将数据读入内存。在map端读数据时,由于读入数据的文件大小分布不均匀,因此会导致有些map instance读取并且处理的数据特别多,而有些map instance处理的数据特别少,造成map端长尾。具体分为以下两种情况:1) 上游表文件的大小特别不均匀,并且小文件特别多(读取的记录数少),导致当前表map端读取的数据分布不均匀,引起长尾2) Map端做聚合时,由于某些map instance读取文件的某原创 2020-08-27 16:14:18 · 1861 阅读 · 0 评论 -
数据仓库中元数据的定义、用途及元数据的分类。
数据仓库中元数据的定义、用途及元数据的分类(1)元数据的定义:元数据是关于数据的数据。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。元数据可以帮助数据仓库管理员和开发人员快速找到他们所关心的数据,用于指导其进行数据管理和开发工作,提高工作效率。(2)元数据的用途:通过元数据可以看到某个数据计算作业的重要程度如何,是否还有下游在使用,是否可以下线。通过元数据的血缘链路可以原创 2020-08-27 16:10:14 · 4491 阅读 · 0 评论 -
hive中的Coalesce()函数,sort_array()函数
1.学习了hive中的Coalesce()函数。Coalesce函数作用是将返回传入的参数中第一个非null的值,参数使用的场合为:假如字段的值是null,想其返回的不是null,而是0或其他值时。比如SELECT COALESCE(NULL, NULL, 1);– Return 1SELECT COALESCE(NULL, NULL, NULL, NULL, NULL, NULL, NULL, NULL, 1);– Return 1如果传入的参数所有都是null,则返回null,比如SEL原创 2020-08-25 18:04:50 · 8068 阅读 · 0 评论 -
大数据之数据仓库概念、四个特性、主流架构
大数据之数据仓库概念、四个特性、主流架构一、数据仓库概念:数据仓库是一个面向主题的、 集成的、 相对稳定的、 反映历史变化的数据集合,用于支持管理决策。是一个过程 ,一个解决方案,一套方法论,不是一个具体产品。二、数据仓库特点:面向主题、集成、稳定、反应历史变化面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点(业务)方面,一个主题通常与多个操作型信息系统相关。集原创 2020-08-20 14:31:07 · 1674 阅读 · 0 评论