大数据面试经验之Hadoop Spark（一）

数据分析数据开发

已于 2023-03-11 11:41:04 修改

阅读量165

点赞数

分类专栏：大数据开发面经文章标签： hadoop 大数据面试

于 2023-03-02 14:29:04 首次发布

本文链接：https://blog.csdn.net/weixin_45670338/article/details/129297658

版权

本文分享了一位面试者的大数据面试经验，重点探讨了Hadoop和Spark的相关知识，包括Hadoop的架构、优势、版本区别、配置文件、运行模式，以及HDFS、MapReduce和Yarn的详细解释。此外，还讨论了Spark的运行流程和与MapReduce的Shuffle区别。最后，简述了Hive的架构原理和执行流程。

摘要由CSDN通过智能技术生成

前言

一、面试经验

1、Hadoop简介

1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2）主要解决，海量数据的存储和海量数据的分析计算问题。

1、Hadoop的优势

1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元
素或存储出现故障，也不会导致数据的丢失。
2）高扩展性：在集群间分配任务数据，方便扩展。
3）高效性：Hadoop是并行工作的，以加快任务处
理速度。
4）高容错性：能够自动将失败的任务重新分配。

3、Hadoop1.x、2.x、3.x的区别？

1）Hadoop 1.x阶段，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大；
2）Hadoop 2.x阶段，增加了Yarn。Yarn只负责资源的调度，MapReduce只负责运算；
3）Hadoop 3.x相比于Hadoop 2.x阶段在组成上没有变化。

4、搭建Hadoop集群的xml文件有哪些？

core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
 <!-- 指定 NameNode 的地址 -->
	 <property>
		 <name>fs.defaultFS</name>
		 <value>hdfs://hadoop102:8020</value>
	 </property>
	 <!-- 指定 hadoop 数据的存储目录 -->
	 <property>
		 <name>hadoop.tmp.dir</name>
		 <value>/opt/module/hadoop-3.1.3/data</value>
	 </property>
	 <!-- 配置 HDFS 网页登录使用的静态用户为 atguigu -->
	 <property>
		 <name>hadoop.http.staticuser.user</name>
		 <value>atguigu</value>
	 </property>
</configuration>