大数据面试题

一、hadoop

(1)、概念题

1、简述hadoop生态组件

2、mapreduce原理

3、对mapreduce的了解

4、hadoop任务调度,进程调度

5、mapReduce的过程

6、hadoop的事务怎么操作

7、请描述HDFS存储的机制

8、请详细比较Hadoop和传统SQL数据库

9、请用MapReduce如何实现两张表连接,有哪些方法

10、请描述MapReduce架构中combiner,partition作用

11、.reduce的数目为什么默认是一个

12、mapper reducer 数量如何确定

13、一个datanode死掉 ,会怎么样?如果这个datanode 之后恢复了,然后会怎么样

14、说一下HDFS的全称

15、设置map个数是在哪个配置文件里

16、数据倾斜,什么时候出现2次mapreduce

17、HA配置过程

(2)、业务题

1、mapreduce怎么同时读2个文件

2、对mapreduce进行过哪些调优

3、mapreduce分析top项

4、Map中的有3个key,1个key是另外两个key的和,如何操作

5、编写一个mapreduce

一般会给需求

6、写过什么mapreduce

7、用mapreduce简述一下实现最热商品(一天商品访问量)、会员用户活跃度(一天登陆次数)、会员访问时长(一天内)等多个模块之间各个模块的top排序(前10个)。

(3)、算法题

1、给10亿条记录,key好像是100个字节,value是800个字节长度,计算出前100个Top值

2、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,找出a、b文件共同的url?

3、在hadoop开发工程中主要用过哪些算法

二、HIVE

(1)、概念题

1、Hive有几种交互方式

2、Hive是怎么从本地装载数据到一个分区表中的

3、说下Hive中的matastore表

4、hive中导致数据倾斜的原因有哪些及解决方案

5、谈谈hive 和 hbase 的区别

6、Hive中内部表与外部表的区别

7、怎么对hive进行优化的

8、Hive中sql语句与MySql中sql语句的区别

9、ROW_NUMBER使用的场景,有没有出现什么问题,如何解决问题的

10、UDAF的编写

11、hive和hbase交互,写sql语句分析的具体过程

12、sortby,orderby,distinctby 区别

13、hive哪个版本的distinct有bug,需要改写其他形式

14、如何干预负载均衡

(2)、业务题

1、用HQL两种方法简述一下实现最热商品(一天商品访问量)、会员用户活跃度(一天登陆次数)、会员访问时长(一天内)等多个模块之间各个模块的top排序(前10个)。

2、UDTF解析IP地址可行?怎么进行解析的

3、手写sql 批量统计会话时长

4、Hive语句实现WordCount

假设数据存放在Hadoop下,路径为:/home/hadoop/worddata里面全是一些单词

5、设定一个场景,解决数据倾斜

注意:大部分面试要求手写SQL语句处理较为复杂的业务

四、Spark

(1)、概念题

1、SparkSQL与Hive的区别

2、spark的快速计算是怎么实现的

3、spark如何与sql交流

4、Spark提交任务如何划分task

5、spark如何注册临时表

6、对spark的了解

7、Spark reducebykey和groupbykey的区别

8、spark streaming优化

9、sparkstreaming处理的数据来源,处理结果放在哪

10、RDD的了解

11、spark为什么比mapreduce快

12、Spark与Hadoop的优缺点

13、sparkstreaming如何和接收kafka的数据

(2)、业务题

1、描述spark项目的流程,数据获取来源及分析过程

2、写一个spark的程序(非wordcount)

3、spark streaming的结果给spark sql继续分析

4、批量计算页面时间Session

5、spark统计热门商品top10

五、SCALA

(1)、概念题

1、从java的map转化成scala的集合

2、scala的变长数组和不可变长数组

3、scala中的循环(1-10)

4、scala中string数组 组成一个整形数组

5、SCALA的map和flatmap

(2)、业务题

1、用scala写正则表达式过滤日志邮箱

2、scala编mapreduce

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值