数仓面试题--实际开发场景类问题

数仓面试题整理

温馨提示:下列面试题没有标准答案,就像一千个人心中有一千个哈利波特

1.数仓中的技术架构与数据架构的关系,以及对应都应该包含什么内容?
2.数据平台与数据仓库的根本区别?分别就是做什么用的?
3.数据仓库的边界在何处?
4.说说你对数据仓库的理解?
5.目前的数仓分层面临的问题?
6.聊一聊你们目前的数仓架构与平台架构。
7.详细说一下你们的数仓分层与你自己的理解,以及分层的好处。
8.你们的分层概念一直很明确吗?有没有一个迭代的过程?如果有的话是依据什么具体内容开始迭代的或者说遇到了什么痛点?
9.说说你们目前数仓中存在的问题?需求分析阶段,模型设计阶段,开发阶段,规范阶段,上线阶段等等。
10.日常查询工作有没有涉及?一个完整的查询工作流程了解过吗?从需求到查询结果返回整个流程。
11.查询中的指标怎么维护?
12.宽表了解吗?具体的宽表开发有没有做过?说说你对宽表的理解?宽表与建模的关于你的理解是怎么样的?
13.数据集市了解吗?具体的集市开发工作做没做过?说说你对集市的理解?用你的知识经验阐述一下大致的集市样貌。
14.源系统有哪些?分别都是负责支撑什么业务系统的?具体的数据采集是怎么做的?
15.调度工具或者说ETL工具采用的什么?
16.下游的数据应用都有哪些?再说说你了解的下游的一些数据应用,可以脱离你的项目,畅所欲言。
17.报表工具用的什么?具体用该工具做过什么比较高级的东西?
18.自助查询了解过吗?自助取数的底层是基于什么?大致的实现思路聊一下?
19.数仓的历史数据如何处理?或者说历史数据归档有没有做过?数仓内部的数据生命周期了解过吗?
20.聊一聊烟囱式开发吧?说说你对烟囱式开发的理解?以及该问题是否真的踩过坑?
21.了解过金融类数仓吗?传统的ODS开发了解吗?说说传统的ODS开发的理解?在大数据场景下有哪些鸡肋的问题?
22.金融十大主题模型了解吗?聊聊具体的几个主题,你们数仓是否真的按照这个主题在做?
23.说说你对数仓的宏观理解以及在数据中台中的具体作用以及位置。
24.数据的几种采集策略了解吗?结合你的项目具体说说。拉链,增量,全量,切片等等
25.拉链,增量,全量,切片这几个策略对应的数据场景?


20230505更新

26.说说你们数仓主题的划分依据吧?结合你们的数仓分层聊一下。主题与数仓分层之间的关系。
27.你们应用层是采用什么逻辑划分的?例如对下游提供的服务不同划分?或者是按照部门划分?如果部门频繁变动如何处理?
28.如果一个部门的下的报表大部分报表的指标加工口径都或多或少有些变化,如果你是数仓负责人,你怎么考虑减少该类问题的改造成本?
29.聊聊每个主题下的建设思路,是否构建主题宽表,还是只是划分了主题而没有深入的思考。
30.你们数据入仓就划分主题了嘛?在数据入仓的时候各个主题的边界是怎么考虑的?
31.你们数仓主题迭代过程有没有参与过?具体的迭代过程导向是什么?
32.是否了解二级主题域,说说你都了解到哪些二级主题域,二级主题一般按照什么划分?
33.主题下分层建设实例考察:
就拿客群举例子,我客户资产100万以上一个档,100万以下一个档,简单的就说两个档。然后根据这个资产去对应给一个标签,100万以上为高级客户,100万以下为中级客户。
这种建模怎么考虑?
这种客户持有金额汇总肯定在DWS
持有金额明细肯定在DWD
客户的标签我存哪里?
34.在你们数仓的物理分层中是否还包含逻辑分层,如果有请说明原因。如果没有就还是上一个问题。
标签类数据放在DWS,还是DWD?还是DIM?
35.现在接到一个需求,数仓中的一个A系统要下线。请问该具体分析数仓内的影响内容有哪些?顺序?如果没有血缘平台该如何处理?下一次遇到该情况该如何处理?
36.你们上线的流程是什么?都需要准备什么文档或者脚本,或者你们的上线包都包含什么?
37.如果数仓半夜有一个重要作业报错,下游作业涉及很多,你会如何处理?
38.聊一聊你觉得你们的架构有哪些你觉得不合理的地方。
39.说一说你目前工作中你认为还能优化的地方,不限于架构,标准,技术,业务等等。
40.简述一下你的日常工作,抛开写SQL还有没有其他内容?


20230506更新

41.您的数仓有没有什么规范类的约束,或者你自己有没有一套自己开发的规范。
42.是否参与过规范的制定?具体都贡献了什么内容?你认为一个完整的数仓大概都有哪些规范类的约束?你在日常开发中会遵守这些规范嘛?
43.你们的规范都是如何执行下去的?上线评审?还是其他?
44.上线评审的大致内容跟流程了解吗?你觉得评审的主要目的是什么?上线前评审能给我们带来什么?参与评审的人员应该都有谁?是否有评审的cheeklist?
45.你觉得数仓的规范与数据治理之间有什么关系吗?
46.聊一聊实际的,你们数仓目前都有什么具体的规范?具体的内容了不了解?
47.如果你的下游大量的使用一张宽表,你会从哪几个方面优化你的批量任务?
48.说说你表设计的思路,字段设计,主键设计,索引设计,分区设计等等。
49.说说你们的表命名方式与字段命名方式。
50.拉链表的使用场景说一下?具体带来的好处是什么?能解决什么问题?拉链表的构造原理了解过吗?退链处理过吗?拉链表纵向拆分处理过吗?你觉得拉链表性能如何?你们的拉链表数据量多大?
51.你开发有写注释的习惯吗?注释都是具体怎么写的?你能在脚本中留下什么?
52.调度用的什么产品?调度依赖了解吗?如果依赖配置错误会产生多少种情况?
53.业务人员给你反馈,有一张表有时候有数有时候没数,你会如何处理?如果业务很急怎么办?你觉得这种情况是由什么原因导致的?
54.数据抽取了解吗?你们源系统分别是什么?说一下你最了解的那个,抽了多少张表,大概速度是多少?
55.你们每天的数据量是多大?批量任务总量是多少?批量总体的时间大概是多久?
56.如果现在需要你针对你们目前的批量任务做优化工作?你会从几方面入手,或者说你需要做什么准备工作?
57.你们数仓贴源层的查询命中率了解过吗?你们数仓的批量任务主要是谁负责?专人or每个人对自己的作业负责?
58.如果你接手了一个又臭又烂的sql,给了你一个修改的需求,你首先的想法是什么?
59.日常有没有自己开发简便自己工作的shell小工具?说两个?
60.日常生产的常见报错处理过几种?处理思路大致讲一下。


20230718更新

61.数仓建设的总体思路是什么?
62.日常数据建模流程是什么?简单说一下。是否看过阿里大数据之路?浅谈一下你对这本书中的模型设计流程的理解。
63.全开发生命周期了解吗?
64.数据字典内容应该都有什么?词根字典了解过吗?对于词根的理解?
65.说说你对指标的理解?标签呢?指标的大致分类?
66.这几种的指标的大致组成要素是什么?具体的举个例子。
67.指标字典做过嘛?那么你们怎么维护指标的口径变化呢?
68.公共维度的产出过程?
69.公共原子指标的产出过程?
70.指标体系了解吗?

  • 1
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值