大数据面经(地平线公司一面+二面)

一面,持续了近50分钟。
1.自我介绍
2.介绍下项目(项目过程中有打断问问题)
我先介绍的第二个项目,balabala一堆,说到mapreduce,问我mapreduce的东西,1.mapreduce的流程2.怎么解决map端和reduce端的数据倾斜问题,balabala,先说了reduce段的解决策略,说到map端的时候我说map端的数据倾斜主要是数据文件输入有倾斜,可以对数据文件进行手动规整切分,他问如果是压缩格式的文件的呢,我愣了以下,它提示我有没有自定义过输入格式,我说自定义过,解决小文件合并的问题,又balabala和我说了下,不记得说了啥。说完接着让我说项目,我说到了hive统计分析,问我用hive sql还是写mapreduce,我说hive sql,考了我两道hive sql题 3.现在数据文件格式如下 用户访问ip和时间戳,让我统计前一天访问次数前五的ip数,这个很简单,我说先按照时间戳过滤出前一天的数据再按照用户ip分组,再用count()函数统计分组记录再排序输出前五个即可。4.接着上一道题问我 加一个用户访问url,现在情景如下,由于前端传过来的数据可能会造成一天记录在表中被记录成两条,只要用户ip和访问url相同,且同时两条数据时间戳在三秒内的就可以认为一条数据,接着统计上一个题的要求, emmmm,我卡住了,他给了我提示,用partition by 分区,还是没想出来怎么解决。。。后来又提示self join。。。这个真不了解。。。我说我多内连接和外连接了解比较多。。。说让我可以看下hive的什么什么函数。我当时也没听清&#

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值