2022字节跳动数据仓库实习面经

最新推荐文章于 2024-11-04 16:35:50 发布

柳小葱

最新推荐文章于 2024-11-04 16:35:50 发布

阅读量7.1k

点赞数 13

分类专栏：大数据面试经历文章标签：数据仓库面试大数据 flink

本文链接：https://blog.csdn.net/weixin_48077303/article/details/123433269

版权

大数据面试经历专栏收录该内容

10 篇文章

订阅专栏

作者分享了自己在字节跳动数据研发岗位的面试经历，包括面试问题、自我感觉及对面试的反思。在面试中，讨论了Flink的状态管理、数据仓库设计以及实时计算等问题，并在后续面试中得到了改进。作者建议被拒后应主动询问HR获取面试反馈以提升自我。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

👊先和大家说一下情况，3月4号面试的字节跳动数据研发岗位直接把我挂了，我满脸疑惑，但是抱着学习和提升自我的心态，打电话问问hr，像看看面试官给我面试的评价，hr说，面试官就两行，第一句肯定，第二句说我专业知识基础不够。以下是我上次的面试经历👇:

链接: 2022暑期实习字节跳动数据研发面试经历.
链接: 2022百度大数据开发工程师实习面试经历.

👍今天是字节另一个团队的面试官来面我，好像是抖音电商部门，通知我来面试。以下就是面试中的问题。
在这里插入图片描述

1. 面试问题

自我介绍
我看你的项目中用过flink，你能和我讲讲你对flink中的状态的理解吗？（我从流处理速度快的原理和checkpoint的角度对state进行了说明）
flink中的状态可以存储在内存中，还可以存储在哪里？说说你的理解？（不仅可以存储在内存，还可以存储在磁盘上，存在内存中计算较快，但容易丢失，state会不定期写入在硬盘上，准备进行checkpoint）
你在滴滴实习的时候也做做过数据仓库开发，你们的数据仓库是如何设计的，分层了吗？（介绍了一个数仓的建设，然后说用的维度建模，分为ods、dwd、dws和app）
说一下为什么要分层？刚才你提到了dwd和dws层，请问他们有什么区别？（从dwd和dws的定义来说，也说了他们俩没有很明确的区别，也可以在中间加另外的层，只要结构清晰，不冗余就行，不绝对。）
现在有这样一个场景，业务部门需要进行修改数仓的操作，换句话说说，如何避免经常发生修改数仓的操作？（我从业务理解的角度和数仓开的经验角度来说，主要是要将dwd和dws层的表里的指标考虑周到，这样子就不需要经常根据业务修改数仓了，因为里面的指标够齐全，表够宽。）
我看你的flink实战项目中有一个计算每小时的成交量的指标，你是如何实现的？（用1小时的滚动窗口进行分组，然后group by统计每小时的成交量。）

--看看sql
--这里涉及到flink的窗口函数，tumble滚动窗口。
INSERT INTO buy_cnt_per_hour
SELECT HOUR(TUMBLE_START(ts, INTERVAL '1' HOUR)), COUNT(*)
FROM user_behavior
WHERE behavior = 'buy'
GROUP BY TUMBLE(ts, INTERVAL '1' HOUR);

你说你用的是滚动窗口，你确定吗？（肯定确定，这里想考我滚动和滑动窗口的理解。）
你会flink sql吗？有过开发实时数据仓库的项目吗？（我使用过flink sql也做过flink数据的开发，但是实际的数据仓库项目没有正式接触过，因为我们部门主要以批处理为主，数据仓库的理论没有较大差别，可能在flink开发中时间、窗口、watermark等设置需要额外注意。）
我看你这里经常写博客，而且有一定的访问量，说说你写博客的历程吧。（如实说明即可，体现自己爱学习的，爱探索的性格）
你觉得你应该如何评价你自己？（自己回答）
sql题，我们有一张表,存储关于用户和客服交流的信息，字段有 call_id,user_id,start_time,end_time,prov_id,call_type,请你求出各天呼入数量top5的省份，call_type=2为呼入。

# 1，这里有一个小插曲，本来是求各天的top5，然后我和面试官沟通一些题目的细节，然后面试官说，就求今天的吧，不用那么麻烦
select tmp1.prov_id,tmp1.call_num
from(
select date(start_time) start_date,prov_id,count(1) call_num
from table1
where call_type='2'
group by date(start_time),prov_id
having date(start_time)=date(now()))tmp1
order by tmp1.call_num desc
limit 5