简答题:以之前做过的项目为例,分层相关的
ods dwd dws dwt ads dwd
C卷编程题:写存储过程,求是否有一半人超过多少工资,否则提升500达到工资都在多少多少以上。
select deptno,avg(sal) as avg_sal_dpt from emp_copy group by deptno;
SQL> select t1.empno, t1.ename, t1.deptno, t1.sal, t2.avg_sal_dpt
2 from emp_copy t1,
3 (select deptno, avg(sal) as avg_sal_dpt from emp_copy group by deptno) t2
4 where t1.deptno = t2.deptno
5 and t1.sal >= t2.avg_sal_dpt;
简答题:1.死锁的四个注意事项是啥?什么情况下容易造成死锁?
(1) 互斥条件:一个资源每次只能被一个进程使用。
(2) 请求与保持条件:一个进程因请求资源而阻塞时,对已获得的资源保持不放。
(3) 不剥夺条件:进程已获得的资源,在末使用完之前,不能强行剥夺。
(4) 循环等待条件:若干进程之间形成一种头尾相接的循环等待资源关系。
(1) 因为系统资源不足。 (2) 进程运行推进的顺序不合适。 (3) 资源分配不当等
2.实时数仓和离线数仓有啥区别?
离线数仓
就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是Hadoop 的 MapReduce 方式;一般是根据前一日的数据生成报表,虽然统计指标、报表繁多,但是对时效性不敏感。
实时数仓
输入数据是可以以序列化的方式一个个输入并进行处理的,也就是说在开始的时候并不需要知道所有的输入数据。与离线计算相比,运行时间短,计算量级相对较小。强调计算过程的时间要短,即所查当下给出结果。主要侧重于对当日数据的实时监控,通常业务逻辑相对离线需求简单一下,统计指标也少一些,但是更注重数据的时效性,以及用户的交互性。
离线数仓,一般地,(业务、日志)数据存储在 HDFS 上,一般分这几层:ods/dwd/dws/dm,其中 dm 层的数据会导出到 olap、rds、kv 数据库中供业务方使用。ad-hoc 查询的数据来源一般来自 ods 层或 dw 层,ad-hoc 的查询引擎为 hive/spark/presto。
实时数仓,也是基于分层的模型 ods/dwd/dws/,业务数据和日志数据,事实数据存储在 kafka 中,维度数据存储在 Hbase/Tair 中,dm 层的数据最终导出到 mq/olap/rds/kv 中。ad-hoc 查询基于 Flink 来做。(都是流动的数据),如上图所示,就是 Kappa 架构。
3.项目数仓模型的如何分层?为什么?
数据运营层(ODS)数据仓库层(DW)数据服务层/应用层(ADS)
清晰数据结构 方便数据血缘追踪 减少重复开发 把复杂问题简单化 屏蔽原始数据的异常
分析题:1.表空间为啥突然增大?2.你的项目是如何建模,为什么?
1. 首先用语句查询容量大于1G的数据段
select segment_name,sum(bytes)/1024/1024 from dba_segments group by segment_name having sum(bytes)/1024/1024>1000;
2.根据LOB段查询该该lob段属于哪个表
3.释放lob类型数据占据的空间
alter table adu_* move tablespace BFPICK lob(content) store as (tablespace bfpick)
4.之后就释放了重复数据所占的空间了,然后在对该表重建索引