大数据面试题及答案 100道（最新版）持续更新

本文为博主原创文章，未经博主：架构专栏，授权，不得转载。

本文链接：https://blog.csdn.net/yanpenglei/article/details/120898435

大数据面试题及答案【最新版】大数据高级面试题大全(最新版)，发现网上很多大数据面试题都没有答案，所以花了很长时间搜集，本套大数据面试题大全

最近由于要准备面试就开始提早看些面试、笔试题。以下是自己总结的一些经常出现、有价值的试题，包含hadoop、hive、hbase、storm、spark等。答案仅供参考，如有错误，请指出。试题不定时更新。

最近有空打开文章，看了这么多浏览量，我就加急搞了一些新的题

我在 CSDN 发布的其他的 Jvm ，SpringCloud，SpringBoot 面试题

SpringBoot面试题及答案140道（最新）持续更新_架构师专栏的博客-CSDN博客工作5年，处于找工作中ing。今年10月份刚刚整理出来的SpringBoot面试题，时间比较赶就没有按照模块分类排序了。总而言之，顺序比较乱，希望大家耐着性子看。如果实在介意，评论告知，我会视情况作修改的。另外如果大家觉得我找的SpringBoot面试题答案不够清晰，欢迎私信或者评论只出，我看到都会去修改的！1、SpringBoot有哪些优点？SpringBoot的优点有：1、减少开发，测试时间和努力。2、使用JavaConfig有助于避免使用XML。3、避免大量的Maven..._springboot面试题https://souyunku.blog.csdn.net/article/details/120850410 300道SpringCloud面试题及答案（最新整理）_架构师专栏的博客-CSDN博客最新SpringCloud面试题及答案【附答案解析】SpringCloud面试题及答案，SpringCloud最新面试题及答案，SpringCloud面试题新答案已经全部更新完了，有些答案是自己总结的，也有些答案是在网上搜集整理的。这些答案难免会存在一些错误，仅供大家参考。如果发现错误还望大家多多包涵，不吝赐教，谢谢~如果不背 SpringCloud面试题的答案，肯定面试会挂！这套SpringCloud面试题大全，希望对大家有帮助哈~博主已将以下这些面试题整理成了一个Java面试手册，是PDF版_springcloud面试题https://souyunku.blog.csdn.net/article/details/121652224 Java中级面试题及答案（120道Java中级面试题大汇总）_架构师专栏的博客-CSDN博客Java中级面试题及答案【最新版及答案，干货！！！这是一个中级Java面试系列题中的第一部分。这一部分论述了可变参数，断言，垃圾回收，初始化器，令牌化，日期，日历等等Java核心问题。Java中级面试永远是程序员迈向成功的第一个门槛，想要面试成功，各种面试题的洗礼是必不可少的，下面就来看看小编精心整理的一些java高级工程师面试题及答案吧。如果不背 Java面试题的答案，肯定面试会挂！这套Java面试题大全，希望对大家有帮助哈~博主已将以下这些面试题整理成了一个Java面试手册，是PDF版的_java中级面试题https://souyunku.blog.csdn.net/article/details/121208556 110道 MySQL面试题及答案（持续更新）_mysql 面试题_架构师专栏的博客-CSDN博客MySQL面试题及答案【最新版】MySQL面试题大全，发现网上很多MySQL面试题及答案整理都没有答案，所以花了很长时间搜集，本套MySQL面试题大全如果不背 MySQL面试题的答案，肯定面试会挂！这套MySQL面试题大全，希望对大家有帮助哈~博主已将以下这些面试题整理成了一个面试手册，是PDF版的1、NOW（）和CURRENT_DATE（）有什么区别？NOW（）命令用于显示当前年份，月份，日期，小时，分钟和秒。CURRENT_DATE（）仅显示当前年份，月份和日期。2、CHA_mysql 面试题https://souyunku.blog.csdn.net/article/details/121677978 110道 Jvm面试题总结及答案（持续更新）_架构师专栏的博客-CSDN博客最新Jvm面试题总结及答案【附答案解析】Jvm面试题及答案2021，Jvm面试题最新面试题，Jvm面试题新答案已经全部更新完了，有些答案是自己总结的，也有些答案是在网上搜集整理的。这些答案难免会存在一些错误，仅供大家参考。如果发现错误还望大家多多包涵，不吝赐教，谢谢~如果不背 Jvm面试题的答案，肯定面试会挂！这套Jvm面试题大全，希望对大家有帮助哈~博主已将以下这些面试题整理成了一个面试手册，是PDF版的1、谈谈动态年龄判断1、这里涉及到 -XX:TargetSurvivorRati._jvm面试题https://souyunku.blog.csdn.net/article/details/121648703 已经整理成7000多页，面试手册PDF版已经整理成7000多页，面试手册PDF版https://mp.weixin.qq.com/s/TMBjoux5tpcqmbEFR-pDrA

如果不背大数据面试题的答案，肯定面试会挂！

这套大数据面试题大全，希望对大家有帮助哈~

新增：谈谈Zookeeper理解

Zookeeper 作为一个分布式的服务框架，主要用来解决分布式集群中应用系统的一致性问题( 解决单点故障问题 )。

Zookeeper 并不是用来专门存储数据的，它的作用主要是用来维护和监控你存储的数据的状态变化，通过监控这些数据状态的变化，从而可以达到基于数据的集群管理

总结: Zookeeper=文件系统+通知机制

spark

新增：请列举出曾经修改过的/etc/下面的文件，并说明修改要解决什么问题？

/etc/profile这个文件，主要是用来配置环境变量。让hadoop命令可以在任意目录下面执行。

/ect/sudoers

/etc/hosts

/etc/sysconfig/network

/etc/inittab

新增：宕机分为HMaster宕机和HRegisoner宕机，如果是HRegisoner宕机，HMaster会将其所管理的region重新分布到其他活动的RegionServer上，由于数据和日志都持久在HDFS中，该操作不会导致数据丢失。所以数据的一致性和安全性是有保障的。

如果是HMaster宕机，HMaster没有单点问题，HBase中可以启动多个HMaster，通过Zookeeper的Master Election机制保证总有一个Master运行。即ZooKeeper会保证总会有一个HMaster在对外提供服务。

新增：offset是每天消息的偏移量

每个日志文件都有一个offset来唯一标记一条信息，由8个自己数字表示，表示此消息在分区中所处的起始位置

每个分区再物理存储层面，由多个logfile组成（segment）

最小的offset表示segment中起始消息的offset

新增：hbase中表的特点

大：上亿行，上百万列

无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态增加，同一张表中不同的行可以有截然不同的列

面向列的存储和权限控制，列族独立索引

对于为null的列，并不占用存储空间，因此表可以设置的非常稀疏

数据多版本：可以有多个版本，系统自动分配，时间戳为版本号

数据类型单一：只有字节数组 byte[]

129.hbase 表逻辑结构

表有行和列组成，列划分为若干个列族cloumn

表明 test

rowkey 列族1：base_info 列族2：xxx_info

0001 name:zhangsan age:20 address:bj

0002 name:lishi age:50 sex:male address:shanghai hoppies:sing

rowkey:hbase的行索引，按照rowkey字典顺序排序

cell可以锁定一个值：Rowkey+列族+列族下的列的名字+值+时间戳

新增：请写出以下的shell命令

1、杀死一个job

2、删除hdfs上的 /tmp/aaa目录

3、加入一个新的存储节点和删除一个节点需要执行的命令

4、 hadoop job –list 得到job的id，然后执行 hadoop job -kill jobId就可以杀死一个指定jobId的job工作了。

5、 hadoopfs -rmr /tmp/aaa

6、增加一个新的节点在新的几点上执行

Hadoop daemon.sh start datanode

Hadooop daemon.sh start tasktracker/nodemanager

下线时，要在conf目录下的excludes文件中列出要下线的datanode机器主机名

然后在主节点中执行 hadoop dfsadmin -refreshnodes à下线一个datanode

删除一个节点的时候，只需要在主节点执行

hadoop mradmin -refreshnodes —下线一个tasktracker/nodemanager

新增：简答说一下hadoop的map-reduce编程模型

首先map task会从本地文件系统读取数据，转换成key-value形式的键值对集合

使用的是hadoop内置的数据类型，比如longwritable、text等

将键值对集合输入mapper进行业务处理过程，将其转换成需要的key-value在输出

之后会进行一个partition分区操作，默认使用的是hashpartitioner，可以通过重写hashpartitioner的getpartition方法来自定义分区规则

之后会对key进行进行sort排序，grouping分组操作将相同key的value合并分组输出，在这里可以使用自定义的数据类型，重写WritableComparator的Comparator方法来自定义排序规则，重写RawComparator的compara方法来自定义分组规则

之后进行一个combiner归约操作，其实就是一个本地段的reduce预处理，以减小后面shufle和reducer的工作量

reduce task会通过网络将各个数据收集进行reduce处理，最后将数据保存或者显示，结束整个job

新增：MR程序运行的时候会有什么比较常见的问题？

比如说作业中大部分都完成了，但是总有几个reduce一直在运行。

这是因为这几个reduce中的处理的数据要远远大于其他的reduce，可能是对键值对任务划分的不均匀造成的数据倾斜。

解决的方法可以在分区的时候重新定义分区规则对于value数据很多的key可以进行拆分、均匀打散等处理，或者是在map端的combiner中进行数据预处理的操作。

新增：请列出你所知道的hadoop调度器，并简要说明其工作方法

Fifo schedular :默认，先进先出的原则

Capacity schedular :计算能力调度器，选择占用最小、优先级高的先执行，依此类推。

Fair schedular:公平调度，所有的 job 具有相同的资源。

博主已将以下这些面试题整理成了一个Java面试手册，是PDF版的

已经整理成7000多页，面试手册PDF版已经整理成7000多页，面试手册PDF版https://mp.weixin.qq.com/s/TMBjoux5tpcqmbEFR-pDrA

2、请列出你所知道的hadoop调度器，并简要说明其工作方法？

比较流行的三种调度器有：默认调度器FIFO，计算能力调度器CapacityScheduler，公平调度器Fair Scheduler

默认调度器FIFO

hadoop中默认的调度器，采用先进先出的原则

计算能力调度器CapacityScheduler

选择占用资源小，优先级高的先执行

公平调度器FairScheduler

同一队列中的作业公平共享队列中所有资源

3、Hadoop安装在什么目录下？

Cloudera和Apache使用相同的目录结构，Hadoop被安装在cdusrlibhadoop-0.20。

4、当你输入hadoopfsck 造成“connection refused java exception’”时，系统究竟发生了什么？

这意味着Namenode没有运行在你的VM之上。

5、spark调优

1、避免创建重复RDD

2、尽可能复用同一个RDD

3、对多次使用的RDD进行持久化

4、避免使用shuffle算子

5、使用map-side预聚合shuffle操作

6、使用高性能的算子

7、广播大变量

8、使用Kryo序列化

9、优化数据结构

6、RAM的溢出因子是？

溢出因子（Spill factor）是临时文件中储存文件的大小，也就是Hadoop-temp目录。

8、为什么hive的分区

为了避免select扫描全表，hive提出了分区表partitionedby的概念，给文件归类打上表示

静态分区：

单分区建表

create table par_tab(name string,nation string) partitioned by (sex string) row format delimited fields terminated by ‘,’;

加载：load data local inpath ‘/hdfs/…’ into table par_tab partition(sex=‘man’)

在创建分区表的时候，系统会在hive数据仓库默认路径/user/hive/warehouse/创建目录，在创建sex=man的目录，最后在分区名下存放实际的数据文件

多分区建表

create table par_tab(name string,nation string) partitioned by (sex string,dt string) row format delimited fields terminated by ',';

load data local inpath '/hdfs/...' into table par_tab partition(sex='man',dt="2019-08-08")

当我们查询所有的man时候，man一下的所有日期下的数据都会被查出来；如果只查询日期分区，那么hive会对路径进行修剪，从而只扫描日期分区，性别分区不做过滤

动态分区

动态分区与静态分区区别就是不指定分区目录，有系统自己选择

开启动态分区 set hive.exec.dynamic.partition=true

10、Namenode、Job tracker和task tracker的端口号是？

Namenode，70；Job tracker，30；Task tracker，60。

public class BinarySearchClass { public static int binary_search(int[] array, int value) { int beginIndex = 0;// 低位下标 int endIndex = array.length - 1;// 高位下标 int midIndex = -1; while (beginIndex <= endIndex) { midIndex = beginIndex + (endIndex - beginIndex) / 2;//防止溢出 if (value == array[midIndex]) { return midIndex; } else if (value < array[midIndex]) { endIndex = midIndex - 1; } else { beginIndex = midIndex + 1; } } return -1; //找到了，返回找到的数值的下标，没找到，返回-1 } //start 提示：自动阅卷起始唯一标识，请勿删除或增加。 public static void main(String[] args) { System.out.println("Start..."); int[] myArray = new int[] { 1, 2, 3, 5, 6, 7, 8, 9 }; System.out.println("查找数字8的下标："); System.out.println(binary_search(myArray, 8)); } //end //提示：自动阅卷结束唯一标识，请勿删除或增加。 }

2、是客户端还是Namenode决定输入的分片？

这并不是客户端决定的，在配置文件中以及决定分片细则。

3、mapred.job.tracker命令的作用？

可以让你知道哪个节点是Job Tracker。

4、全分布模式又有什么注意点？

全分布模式通常被用于生产环境，这里我们使用N台主机组成一个Hadoop集群，Hadoop守护进程运行在每台主机之上。这里会存在Namenode运行的主机，Datanode运行的主机，以及task tracker运行的主机。在分布式环境下，主节点和从节点会分开。

5、hive 跟hbase的区别

共同点都是用hadoop作为底层存储

区别：hive是为了减少mrjobs编写工作的批处理系统，处理速度慢。hive本身不存储数据和计算数据，依赖于hadoop，纯逻辑表

hbase是为了hadoop对实时操作的缺陷的项目，处理速度快，是物理表，提供一个超大的内存hash表，方便查询操作

如果全表扫描用 hive+hadoop

如果用索引查询与hbase+hadoop

是处理数据库文件还是读取文本文件

先读取文本文件进行清洗，然后放入hdfs，进行处理

或者直接读取MySQL中格式化数据

6、请列出正常工作的hadoop集群中hadoop都需要启动哪些进程，他们的作用分别是什么？

NameNode: HDFS的守护进程，负责记录文件是如何分割成数据块，以及这些数据块分别被存储到那些数据节点上，它的主要功能是对内存及IO进行集中管理

Secondary NameNode：辅助后台程序，与NameNode进行通信，以便定期保存HDFS元数据的快照。

DataNode：负责把HDFS数据块读写到本地的文件系统。

JobTracker：负责分配task，并监控所有运行的task。

TaskTracker：负责执行具体的task，并与JobTracker进行交互。

7、KafkaUtils.createDstream 和 KafkaUtils.createDirectstream 区别

使用一个 receiver 接收器接收数据，接收到的数据将会保存到executor中，然后通过sparkStreaming 启动job来处理数据，默认不会丢失，可启动WAL日志，保存到hdfs上

spark.streaming.recever.writeAheadLog.enable=true 同时开启 StorageLevel.MeMORY_AND_DISK_SER_2

KafkaUtils.createDirectstream方式，他定期从Kafka的分区中查询偏移量，再根据偏移量范围在每个batch里面处理数据

优点：简化并行高效恰好一次被消费

hbase

8、Kafka与传统消息队列的区别

RabbitMQ吞吐量稍差Kafka，支持对消息可靠的传递，支持事务，不支持批量的操作，存储于内存或者磁盘

Kafka遵从一般的MQ结构，producer，broker，consumer，以consumer为中心，消费的消费信息保存在客户端consumer上，consumer根据消费的点，从broker批量pull数据；无消息确认机制

Kafka具有搞得吞吐量，内部采用消息的批量处理，数据的存储和获取是本地磁盘顺序批量操作，消息处理的效率高

Kafka 的broker支持主备模式

Kafka 负载均衡 Zookeeper方向

Kafka采用Zookeeper进行管理，可以注册topic到Zookeeper上，通过zoo的协调机制，生产者保存对应topic的broker消息，可以随机或者轮询发送到broker上；并且生产者可以基于予以定义指定分片，消息发送到broker的某分片上

9、Master文件是否提供了多个入口？

是的你可以拥有多个Master文件接口。

10、Spark的数据本地性有哪几种？

Spark中的数据本地性有三种：

1、 PROCESS_LOCAL是指读取缓存在本地节点的数据

2、 NODE_LOCAL是指读取本地节点硬盘数据

3、 ANY是指读取非本地节点数据

通常读取数据PROCESS_LOCAL>NODE_LOCAL>ANY，尽量使数据以PROCESS_LOCAL或NODE_LOCAL方式读取。其中PROCESS_LOCAL还和cache有关，如果RDD经常用的话将该RDD cache到内存中，注意，由于cache是lazy的，所以必须通过一个action的触发，才能真正的将该RDD cache到内存中。