数仓面试题

什么是数据仓库呢?

数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、数据集成的(Integrated)、相对稳定(非易失)的(Non-Volatile)、反映历史变化(时变)(Time Variant)的数据集合, 用于支持管理决策(Decision Making Support)。

说白了就是企业想做数据分析,但存在数据孤岛和数据量太大的问题,所以做一个能够系统解决集中存储,海量数据计算和最好支撑SQL的东西叫做数据仓库

数据仓库和传统的业务数据库有什么区别?

数据库:是一种逻辑概念,用来存放数据的仓库,通过数据库软件来实现。数据库由很多表组成,表是二维的,一张表里面有很多字段。字段一字排开,对数据就一行一行的写入表中。数据库的表,在于能够用二维表现多维的关系。如:oracle、DB2、MySQL等。 数据仓库:是数据库概念的升级。从逻辑上理解,数据库和数据仓库没有区别,都是通过数据库软件实现存放数据的地方,只不过从数据量来说,数据仓库要比数据库更庞大的多。数据仓库主要用于数据挖掘和数据分析,辅助领导做决策; 它们的主要区别体现在数仓是综合的或提炼的,数据库是细节的,数仓主要用星型模型或雪花模型;面向分析,支持决策需求;而数据库用的是实体-关系(E-R)模型;面向事务,一次操作使用的数据量小;此外数仓还存储历史数据,不包含最新数据;数据只读,只追加,一次操作一个集合,数据量大,而数据库与之相反。

OLTP和OLAP分别是什么?有什么区别?

OLTP: 在线事务处理 OLAP: 在线分析处理 OLTP通常事务操作频繁,数据量小,也就是主要做增删改,OLAP主要是查询操作,数据量大,也就是主要做查询, OLTP系统主要为了业务能够顺畅、稳定的运行,OLAP系统主要为了数据能够高效的分析处理 同时OLTP响应速度快,主要面向业务操作人员,OLAP响应时间慢,主要面向管理决策人员。

数仓分层的作用是什么?

由于我们做数据分析,大体上在数仓中都是迭代的计算,这种计算就会分层次来进行。

在实际计算中,如果直接从DWD或者ODS计算出宽表的统计指标,会存在计算量太大并且维度太少的问题,因此一般的做法是,在DWM层先计算出多个小的中间表,然后再拼接成一张DWS的宽表。

由于宽和窄的界限不易界定,也可以去掉DWM这一层,只留DWS层,将所有的数据在放在DWS亦可。

项目中有做按照主题分析吗?若有,有哪些主题

项目分析的五个大方向(主题)

物流运输主题
云仓主题
等等

数据仓库的主要特性是?

集中存储
海量数据分析计算
支持SQL语言
专用数据分析

数据仓库主要解决了什么问题

请大体概述一下,企业中遇到什么问题,又用数仓解决了什么问题

企业想做数据分析,但是有数据孤岛问题以及数据量太大,所以做出一个系统解决了集中存储的问题以及解决了海量数据计算的问题,同时还能支持SQL最好。那么这个我们叫做数据仓库。

什么是缓慢渐变维?适用于什么场景?

维度属性随时间发生改变

例如:一个人的婚姻状态、工作经历、工作单位和培训经历等。

什么是拉链表?适用于什么场景

SCD渐变维也称之为拉链表 适用于完整记录版本更迭,又能极大节省存储空间的场景。 它是目前使用最广泛的模式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值