面试过程中的一些面试题

1、求用户最大连续登陆的天数(使用row_number排序,让时间减去rn,求最大count值)
2、写个sql(简单两表jion)问spark在处理过程中产生多少stage,用mr处理过程中产生多少job,并且mr底层是怎么处理这个sql的(map端和reduce端)
3、数仓命名规则
4、项目过程中遇到了哪些复杂的问题
6、是否对hive进行调优,简单说下
7、hive中的存储格式
8、怎么保证数据仓库中数据的质量
9、项目中求过最复杂的指标是什么
10、数据仓库中dws(宽表)的设计原则
11、kafka原理简单介绍
12、求用户的一日留存数
13、求累计访问次数,比如一月访问数10,二月访问数为20,二月累计访问次数就是30。(答案:sum(month_visit) over(distribute by userid sort by month asc rows between unbounded preceding and current row) as sum_visit)
14、mapreduce的运行全流程
15、数据仓库中缓慢变化维怎么做的缓慢变化维
16、求共同好友怎么求

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值