南方电网面试题

午饭有鱼有虾9

于 2022-11-01 18:29:56 发布

阅读量1.2k

点赞数

文章标签： sql 数据库 mysql

本文链接：https://blog.csdn.net/weixin_56765170/article/details/127638800

版权

简答题：以之前做过的项目为例，分层相关的
ods dwd dws dwt ads dwd

C卷编程题：写存储过程，求是否有一半人超过多少工资，否则提升500达到工资都在多少多少以上。
select deptno,avg(sal) as avg_sal_dpt from emp_copy group by deptno;

SQL> select t1.empno, t1.ename, t1.deptno, t1.sal, t2.avg_sal_dpt
2 from emp_copy t1,
3 (select deptno, avg(sal) as avg_sal_dpt from emp_copy group by deptno) t2
4 where t1.deptno = t2.deptno
5 and t1.sal >= t2.avg_sal_dpt;

简答题：1.死锁的四个注意事项是啥？什么情况下容易造成死锁？
（1）互斥条件：一个资源每次只能被一个进程使用。
（2）请求与保持条件：一个进程因请求资源而阻塞时，对已获得的资源保持不放。
（3）不剥夺条件:进程已获得的资源，在末使用完之前，不能强行剥夺。
（4）循环等待条件:若干进程之间形成一种头尾相接的循环等待资源关系。
（1）因为系统资源不足。（2）进程运行推进的顺序不合适。（3）资源分配不当等

2.实时数仓和离线数仓有啥区别？
离线数仓
就是在计算开始前已知所有输入数据，输入数据不会产生变化，一般计算量级较大，计算时间也较长。例如今天早上一点，把昨天累积的日志，计算出所需结果。最经典的就是Hadoop 的 MapReduce 方式；一般是根据前一日的数据生成报表，虽然统计指标、报表繁多，但是对时效性不敏感。
实时数仓
输入数据是可以以序列化的方式一个个输入并进行处理的，也就是说在开始的时候并不需要知道所有的输入数据。与离线计算相比，运行时间短，计算量级相对较小。强调计算过程的时间要短，即所查当下给出结果。主要侧重于对当日数据的实时监控，通常业务逻辑相对离线需求简单一下，统计指标也少一些，但是更注重数据的时效性，以及用户的交互性。
离线数仓，一般地，（业务、日志）数据存储在 HDFS 上，一般分这几层：ods/dwd/dws/dm，其中 dm 层的数据会导出到 olap、rds、kv 数据库中供业务方使用。ad-hoc 查询的数据来源一般来自 ods 层或 dw 层，ad-hoc 的查询引擎为 hive/spark/presto。
实时数仓，也是基于分层的模型 ods/dwd/dws/，业务数据和日志数据,事实数据存储在 kafka 中，维度数据存储在 Hbase/Tair 中，dm 层的数据最终导出到 mq/olap/rds/kv 中。ad-hoc 查询基于 Flink 来做。（都是流动的数据），如上图所示，就是 Kappa 架构。

3.项目数仓模型的如何分层？为什么？
数据运营层(ODS)数据仓库层（DW）数据服务层/应用层（ADS）
清晰数据结构方便数据血缘追踪减少重复开发把复杂问题简单化屏蔽原始数据的异常

分析题：1.表空间为啥突然增大？2.你的项目是如何建模，为什么？
1. 首先用语句查询容量大于1G的数据段
select segment_name,sum(bytes)/1024/1024 from dba_segments group by segment_name having sum(bytes)/1024/1024>1000;
2.根据LOB段查询该该lob段属于哪个表
3.释放lob类型数据占据的空间
alter table adu_* move tablespace BFPICK lob(content) store as (tablespace bfpick)
4.之后就释放了重复数据所占的空间了，然后在对该表重建索引