1、求用户最大连续登陆的天数(使用row_number排序,让时间减去rn,求最大count值)
2、写个sql(简单两表jion)问spark在处理过程中产生多少stage,用mr处理过程中产生多少job,并且mr底层是怎么处理这个sql的(map端和reduce端)
3、数仓命名规则
4、项目过程中遇到了哪些复杂的问题
6、是否对hive进行调优,简单说下
7、hive中的存储格式
8、怎么保证数据仓库中数据的质量
9、项目中求过最复杂的指标是什么
10、数据仓库中dws(宽表)的设计原则
11、kafka原理简单介绍
12、求用户的一日留存数
13、求累计访问次数,比如一月访问数10,二月访问数为20,二月累计访问次数就是30。(答案:sum(month_visit) over(distribute by userid sort by month asc rows between unbounded preceding and current row) as sum_visit)
14、mapreduce的运行全流程
15、数据仓库中缓慢变化维怎么做的缓慢变化维
16、求共同好友怎么求
面试过程中的一些面试题
最新推荐文章于 2024-03-12 00:36:50 发布