hadoop
大数据面经
关注微信公众号:大数据面试宝典
领取大数据相关配套知识点
展开
-
Hive的架构组成详解
如图中所示,Hive通过给用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的Driver,结合元数据(MetaStore),将这些指令翻译成MapReduce,提交到Hadoop中执行,最后,将执行返回的结果输出到用户交互接口。一、概要用户接口:ClientCLI(command-line interface)、JDBC/ODBC(jdbc访问hive)、WEBUI(浏览器访问hive)元数据:Metastore元数据包括:表名、表所属的数据库(默认是default)、表的.原创 2021-04-02 23:41:12 · 906 阅读 · 0 评论 -
Hadoop生态圈中各个服务角色
Hadoop生态圈中各个服务角色zookeeper角色:ZooKeeper服务是指包含一个或多个节点的集群提供服务框架用于集群管理。对于集群,Zookeeper服务提供的功能包括维护配置信息、命名、提供HyperBase的分布式同步,推荐在 ZooKeeper集群中至少有3个节点。JDK角色:JDK是 Java 语言的软件开发工具包, JDK是整个Java开发的核心,它包含了Java的运行环境,Java工具和Java基础的类库。Apache-Flume角色:Flume是Cloudera提供原创 2021-04-02 23:34:17 · 229 阅读 · 0 评论 -
Hadoop为什么会有Yarn?
Hadoop为什么会有Yarn?Hadoop2.x较Hadoop1.x来说,变化非常大,主要主要体现在Hadoop2.x引入了“Yarn”这个核心部件。hadoop1.x有两大部件,HDFS和MadpReduce,其中HDFS(Hadoop Distributed Files System)用于分布式存储文件,由一个NameNode和多个DateNode组成,便于集群中各机器从上面读取和写入文件(数据),MadpReduce由一个JobTracker和多个TaskTracker组成,两个核心任务,Map原创 2021-04-02 23:32:48 · 172 阅读 · 0 评论 -
yarn架构组件
YARN 总体上是 master/slave 结构,在整个资源管理框架中,ResourceManager 为 master,NodeManager 是 slave。YARN的基本组成结构,YARN 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等几个组件构成。ResourceManager是Master上一个独立运行的进程,负责集群统一的资源管理、调度、分配等等;NodeManager是Slave上一个独立运行的进程,负责上原创 2021-03-10 16:32:01 · 1298 阅读 · 2 评论 -
简单的介绍一下YARN
Apache Yarn(Yet Another Resource Negotiator的缩写)是hadoop集群资源管理器系统,Yarn从hadoop 2引入,最初是为了改善MapReduce的实现,但是它具有通用性,同样执行其他分布式计算模式。在MapReduce1中,具有如下局限性:1、扩展性差:jobtracker兼顾资源管理和作业控制跟踪功能跟踪任务,启动失败或迟缓的任务,记录任务的执行状态,维护计数器),压力大,成为系统的瓶颈2、可靠性差:采用了master/slave结构,master容原创 2021-03-09 21:09:46 · 148 阅读 · 0 评论 -
Mapreduce的combiner
每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一。combiner是MR程序中Mapper和Reducer之外的一种组件combiner组件的父类就是Reducercombiner和reducer的区别在于运行的位置:Combiner是在每一个maptask所在的节点运行Reducer是接收全局所有Mapper的输出结果;combiner的意原创 2021-03-09 20:57:05 · 116 阅读 · 0 评论 -
MapReduce中排序发生在哪几个阶段?
一个MapReduce作业由Map阶段和Reduce阶段两部分组成,这两阶段会对数据排序,从这个意义上说,MapReduce框架本质就是一个Distributed Sort。在Map阶段,Map Task会在本地磁盘输出一个按照key排序(采用的是快速排序)的文件(中间可能产生多个文件,但最终会合并成一个),在Reduce阶段,每个ReduceTask会对收到的数据排序,这样数据便按照key分成了若干组,之后以组为单位交给reduce方法处理。很多人的误解在Map阶段,如果不使用Combiner便不会排原创 2021-03-08 11:44:33 · 555 阅读 · 0 评论 -
Hive知识点总结
Hive知识点总结什么是Hive?Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的意义(最初研发的原因)?降低程序员使用Hadoop的难度,降低学...原创 2019-11-28 20:18:47 · 2142 阅读 · 0 评论 -
HDFS的API详情
使用文件系统方式访问数据(掌握) 在 java 中操作 HDFS,主要涉及以下 Class: Configuration:该类的对象封转了客户端或者服务器的配置; FileSystem:该类的对象是一个文件系统对象,可以用该对象的一些方法来对文件进行操作,通过 FileSystem 的 静态方法 get 获得该对象。 FileSystem fs = FileSystem....原创 2019-11-26 21:22:38 · 2245 阅读 · 2 评论 -
Split的逻辑切分
文字概述获取到读取到的数据,对数据进行逻辑切分,切分的大小是128M.这里的128 与HDFS数据块的128没有任何关系HDFS 128 是存储层面的数据切分split128 是计算层面的128,只不过数据恰好相等。两个128相同的原因是,一个集成程序能够正好计算一个数据块。图片流程...原创 2019-11-14 15:48:58 · 2481 阅读 · 1 评论 -
Shuffle(混洗)
文章目录shuffle的步骤图片步骤shuffle的步骤shuffle 分为 分区, 排序, combiner, 分组,四个步骤1map把key和value的值传给shuffle的partition, … …partition按照一定的算法来给数据划分区域然后传给shuffle的soft (算法:对key 进行哈希,获取到一个哈希值,用这个哈希值与reducetask的数量取余。...原创 2019-11-14 15:46:50 · 2907 阅读 · 0 评论 -
MapReduce的总流程
MapReduce的总流程1.InputFormatInputFormat到dfs上读取数据,把数据传给split2.Splitsplit将数据进行逻辑拆分,将数据传给RR3.RRRR将传入的数据转成一行一行的数据,输出首字母偏移量对应的数据将数据传给MAP4.MapMap根据业务需求实现自定义代码,将数据传给shuff的partition5.分区 partitionpart...原创 2019-11-14 15:32:12 · 1704 阅读 · 0 评论 -
分布式并行计算框架MapReduce详解
文章目录什么是计算框架?什么是并行计算框架?什么是分布式计算?理解MapReduce思想MapReduce的步骤什么是计算框架?是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。用于去解决或者处理某个复杂的计算问题什么是并行计算框架?是指为更快的计算某项任务或某项工作,将计算程序分发到多台服务器上,使每个服务器计算总任务的一部分,多台服务器同时计算的框架。什么是分布式计算?...原创 2019-11-13 08:16:39 · 3221 阅读 · 0 评论 -
退役节点小知识
退役节点创建dfs.hosts.exclude配置文件 输入需要退役的节点编辑namenode所在机器的hdfs-site.xml 把dfs.hosts.exclude文件的路径写入hdfs-size.xml中刷新namenode,刷新resourceManager命令: hdfs dfsadmin -refreshNodes命令: yarn rmadmin -refreshNo...原创 2019-11-06 21:43:45 · 1533 阅读 · 3 评论 -
集群新增节点小知识
文章目录1新增节点的准备工作2 开始新增节点1新增节点的准备工作准备工作序号内容1准备一个新的节点 修改主机名称2配置ip 和mac地址3关闭防火墙,关闭selinux4修改ip和名称的映射关系5配置ssh免密登录6配置jdk1.82 开始新增节点步骤在hadoop目录下创建dfs.hosts文件 把集群节点名称写入...原创 2019-11-06 21:40:39 · 1857 阅读 · 2 评论 -
secondarynameNode如何辅助管理FSImage与Edits文件
由于editlog记录了集群运行期间所有对HDFS的相关操作,所以这个文件会很大。集群关闭后再次启动时会将Fsimage,editlog加载到内存中,进行合并,恢复到集群的。由于editlog文件很大所有,集群再次启动时会花费较长时间。为了加快集群的启动时间,所以使用secondarynameNode辅助NameNode合并发Fsimage,editlog。原理如下完成合并的是seco...原创 2019-11-05 21:25:15 · 1817 阅读 · 2 评论 -
简要谈谈Fsimage,Edits的作用
文章目录Fsimage 和 Edits 的小故事FsimageEdits关于他俩的图片Fsimage 和 Edits 的小故事从前有一个叫namenode的人 ,他每天晚上老是忘记上一天发生的事,然后他就拿出了两个小本本 ,一个叫Fsimage另一个叫Edits ,他把上一天发生的事记录在在Fsimage 把一些小事记录在Edits中 第二天起来 看看Fsimage和...原创 2019-11-05 15:52:49 · 778 阅读 · 3 评论 -
HDFS的安全模式
文章目录hdfs 安全模式1 hdfs介绍2 hdfs 安全模式什么时候启动3 hdfs 安全模式的作用4 hdfs的文件权限验证5 hdfs安全模式的命令hdfs 安全模式1 hdfs介绍安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求。2 hdfs 安全模式什么时候启动在NameNode主节点启动时,HDFS首先进入安全模式,...原创 2019-11-05 14:54:42 · 277 阅读 · 3 评论 -
HDFS的特性和缺点
文章目录HDFS特性HDFS缺点HDFS特性1、海量数据存储: HDFS可横向扩展,其存储的文件可以支持PB级别或更高级别的数据存储。2、高容错性:数据保存多个副本,副本丢失后自动恢复。可构建在廉价的机器上,实现线性扩展。当集群增加新节点之后,namenode也可以感知,进行负载均衡,将数据分发和备份数据均衡到新的节点上。3、商用硬件:Hadoop并不需要运行在昂贵且高可靠的硬件上。它是设...原创 2019-11-05 14:37:32 · 276 阅读 · 1 评论 -
HDFS文件读和写
文章目录1.文件写入2.文件读取1.文件写入详细步骤解析:1、 client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传;2、 client请求第一个block该传输到哪些DataNode服务器上;3、 NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的DataNode的...原创 2019-11-04 19:53:12 · 165 阅读 · 2 评论 -
大数据服务器小知识
文章目录1传统服务器和大数据服务器1.1 传统服务器1.2大数据服务器2大数据技术为什么快3 hadoop的组成部分1传统服务器和大数据服务器1.1 传统服务器系统硬盘 完全独立 不存储业务数据物理磁盘做raid1 两个磁盘 用来备份/boot 200m/SWAP 内存的1-2倍/ 所有空间数据硬盘多块小的硬盘 做一个大的硬盘(逻辑卷)1.2大数据服务器系统硬盘(100%...原创 2019-10-31 18:21:17 · 369 阅读 · 0 评论