一面,持续了近50分钟。
1.自我介绍
2.介绍下项目(项目过程中有打断问问题)
我先介绍的第二个项目,balabala一堆,说到mapreduce,问我mapreduce的东西,1.mapreduce的流程2.怎么解决map端和reduce端的数据倾斜问题,balabala,先说了reduce段的解决策略,说到map端的时候我说map端的数据倾斜主要是数据文件输入有倾斜,可以对数据文件进行手动规整切分,他问如果是压缩格式的文件的呢,我愣了以下,它提示我有没有自定义过输入格式,我说自定义过,解决小文件合并的问题,又balabala和我说了下,不记得说了啥。说完接着让我说项目,我说到了hive统计分析,问我用hive sql还是写mapreduce,我说hive sql,考了我两道hive sql题 3.现在数据文件格式如下 用户访问ip和时间戳,让我统计前一天访问次数前五的ip数,这个很简单,我说先按照时间戳过滤出前一天的数据再按照用户ip分组,再用count()函数统计分组记录再排序输出前五个即可。4.接着上一道题问我 加一个用户访问url,现在情景如下,由于前端传过来的数据可能会造成一天记录在表中被记录成两条,只要用户ip和访问url相同,且同时两条数据时间戳在三秒内的就可以认为一条数据,接着统计上一个题的要求, emmmm,我卡住了,他给了我提示,用partition by 分区,还是没想出来怎么解决。。。后来又提示self join。。。这个真不了解。。。我说我多内连接和外连接了解比较多。。。说让我可以看下hive的什么什么函数。我当时也没听清&#
大数据面经(地平线公司一面+二面)
最新推荐文章于 2022-11-24 06:00:00 发布