![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop面试
文章平均质量分 50
Hadoop面试
我是方小磊
这个作者很懒,什么都没留下…
展开
-
简要描述如何安装配置一个apache开源版hadoop,描述即可,列出步骤更好
解压hadoop包,到指定安装文件夹。配置linux基本网络环境、jdk环境、防火墙环境。修改主机名,方便后面UI的访问。修改hadoop/etc/hadoop/conf下的配置文件,根据部署的模式和需要进行配置(如hadoop-env.sh,core-site.xml , mapred-site.xml , hdfs-site.xml,slaves等)。配置hadoop环境变量(如HADOOP_HOME,HADOOP_CONF_DIR,HADOOP_USER_NAME)格式化 hadoop na转载 2021-05-31 20:54:48 · 1266 阅读 · 0 评论 -
海量日志数据提取出某日访问百度次数最多的IP,怎么做?
转载 2021-05-31 20:44:47 · 150 阅读 · 0 评论 -
Hadoop combine和parition的作用
combiner的作用combiner是reduce的实现,在map端运行计算任务,减少map端的输出数据。作用就是优化。但是combiner的使用场景是mapreduce的map输出结果和reduce输入输出一样。也就是说如果map端的输出结果就如图所示,使用了combiner,在mapper端也会对键值对进行一次reduce。然后再发送给reducer。但是实际上要注意的是,combiner的完成阶段是在mapper端的排序阶段之后的。如果不用combiner,那么,所有的结果都是redu原创 2021-05-28 10:04:37 · 352 阅读 · 0 评论 -
hadoop的进程名称(守护进程)
1.namenode:管理集群,并记录datanode文件信息。2.Secondname:协助namenode进行合并日志3.Datanode:存储数据。4.Jobtracker:管理任务,并将任务分配给tasktracker。5.Tasktracker:任务执行者转载 2021-05-24 21:24:50 · 1210 阅读 · 0 评论 -
hadoop的调度器及其工作原理
调度器(scheduler)是Yarn中ResourceManager中的可插拔的资源调度器。所以它只管给任务分配资源,不管其他的事情。①先进先出调度器(FIFO Scheduler)Hadoop中默认的调度器,按照到达时间的先后选择被执行的任务。先进先出,同一时间队列中只有一个任务在执行。②容量调度器(Capacity Scheduler)Hadoop2.x之后默认的调度器是Capacity Scheduler容量调度器,多队列的方式。以队列为单位划分资源,每个队列可设定一定比例的资源原创 2021-05-23 10:58:42 · 1588 阅读 · 0 评论 -
Hadoop中MapReduce的执行过程及shuffle过程
文章目录1. MapReduce简介2. MapReduce的执行过程2.1 Map过程2.2 Shuffle过程2.3 Reduce过程1. MapReduce简介MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。2. MapReduce的执行过程总的来说MapReduce的过程可以划分为三个部分:1)Map: 数据映射。首先转载 2021-05-22 18:39:36 · 1992 阅读 · 0 评论 -
Hadoop yarn架构及任务调度过程
1. yarn概述Apache Hadoop YARN 是开源 Hadoop 分布式处理框架中的资源管理和作业调度技术。作为 Apache Hadoop 的核心组件之一,YARN 负责将系统资源分配给在 Hadoop 集群中运行的各种应用程序,并调度要在不同集群节点上执行的任务。总的来说就是Apache Yarn(Yet Another Resource Negotiator的缩写)是hadoop集群资源管理器系统,负责管理集群资源的分配和作业的调度。2. yarn架构总体上来说,yarn是一个主从转载 2021-05-21 19:00:59 · 639 阅读 · 0 评论 -
HDFS相关面试题
1. hdfs概述hdfs(Hadoop Distribute File System)是分布式文件系统。分布式文件系统 distributed file system 是指文件系统管理的物理存储资源不一定直接链接在本地节点上,而是通过计算机网络与节点相连,可让多机器上的多用户分享文件和存储空间。说简单点就是将一个大文件分布式存储在不同的机器节点上2.hdfs架构HDFS具有主/从架构。HDFS集群由单个NameNode多个datanode构成。1)Namenode是负责管理分布式文件系统的命名转载 2021-05-18 20:08:35 · 2151 阅读 · 0 评论