Hadoop
文章平均质量分 52
王傲旗的大数据之路之Hadoop专栏
大数据面试宝典
这个作者很懒,什么都没留下…
展开
-
Hadoop生态圈中各个服务角色
Hadoop生态圈中各个服务角色zookeeper角色:ZooKeeper服务是指包含一个或多个节点的集群提供服务框架用于集群管理。对于集群,Zookeeper服务提供的功能包括维护配置信息、命名、提供HyperBase的分布式同步,推荐在 ZooKeeper集群中至少有3个节点。JDK角色:JDK是 Java 语言的软件开发工具包, JDK是整个Java开发的核心,它包含了Java的运行环境,Java工具和Java基础的类库。Apache-Flume角色:Flume是Cloudera提供原创 2021-04-02 23:35:14 · 264 阅读 · 0 评论 -
Hadoop为什么会有Yarn?
Hadoop为什么会有Yarn?Hadoop2.x较Hadoop1.x来说,变化非常大,主要主要体现在Hadoop2.x引入了“Yarn”这个核心部件。hadoop1.x有两大部件,HDFS和MadpReduce,其中HDFS(Hadoop Distributed Files System)用于分布式存储文件,由一个NameNode和多个DateNode组成,便于集群中各机器从上面读取和写入文件(数据),MadpReduce由一个JobTracker和多个TaskTracker组成,两个核心任务,Map原创 2021-04-02 23:31:34 · 517 阅读 · 0 评论 -
HDFS架构和组成
HDFS架构和组成Hdfs 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成NameNode, DataNode,client,和SencondayNameNode组成NameNode(Master):管理 HDFS 的命名空间,维护元数据。接收客户端的请求。管理数据块(Block)映射信息.配置副本策略DataNode(Slave):存储实际的数据块 。执行数据块的读/写操作。向namenode上传心跳信息。Client(客户端):1、文件上传 HDFS原创 2021-02-24 22:52:40 · 831 阅读 · 0 评论 -
hadoop配置HA详细教程
准备工作1.修改Linux主机名2.修改IP3.修改主机名和IP的映射关系 /etc/hosts4.关闭防火墙5.ssh免登陆6.安装JDK,配置环境变量等7.注意集群时间要同步集群部署节点角色的规划(3节点)------------------server01 namenode resourcemanager zkfc nodemanager datanod...原创 2020-03-23 15:15:21 · 5243 阅读 · 0 评论 -
Yarn 调度器Scheduler
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。在Yarn中有三种调度器可以选择:...原创 2020-03-23 14:56:18 · 4199 阅读 · 0 评论 -
Yarn三大组件介绍及运行流程
Yarn三大组件ResourceManagerResourceManager负责整个集群的资源管理和分配,是一个全局的资源管理系统。 NodeManager以心跳的方式向ResourceManager汇报资源使用情况(目前主要是CPU和内存的使用情况)。RM只接受NM的资源回报信息,对于具体的资源处理则交给NM自己处理。 YARN Scheduler根据application的请求为其...原创 2020-03-23 14:44:36 · 4730 阅读 · 0 评论 -
Yarn的介绍及基础架构
Yarn通俗介绍Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度。它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。可以把yarn理解为相当于一个分布式的操作系统平台,而mapred...原创 2020-03-23 14:39:40 · 4258 阅读 · 0 评论 -
Hadoop序列化与反序列化详解
1.什么是序列化?序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输反序列化就是将收到字节序列(或其他数据传输协议) 或者是磁盘的持久化数据,转换成内存中的对象2.为什么要序列化?一般来说,"活的"对象只能在内存中生存,关机断电就没有了,而且"活的"对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机,然而序列化可以存储"活的"...原创 2019-11-11 21:32:29 · 5437 阅读 · 2 评论 -
hadoop2.x的组成部分
1.HDFS管理者:NameNode负责管理管理集群内的各个节点负责管理整个文件系统的元数据(指的是数据的存放位置或是存放路劲)或名字空间辅助管理者:secondaryNameNode负责辅助管理NameNode的工作工作者:DataNode负责工作进行读写数据周期向NameNode汇报负责管理用户的文件数据块(一个大的数据拆分多个小的数据块)2.MapRedu...原创 2019-11-04 08:32:52 · 10350 阅读 · 0 评论 -
Hadoop集群验证的三种方式
1.使用 linux的 jps 命令如果出现以下进程则是成功2.在NameNode所在的节点的ip+50070端口查看HDFS的web界面是否可用3.在HDFS系统中创建一个文件夹或文件,若能创建表示集群可以hadoop fs -mkdir /csdnhadoop fs -ls /...原创 2019-11-04 08:21:43 · 7172 阅读 · 1 评论 -
hadoop的集群部署--超级详细
文章目录1.获取安装包2.创建两个文件夹,上传解压3.查看Hadoop支持的压缩方式以及本地库3.修改环境变量3.修改配置文件准备工作3.1 修改core-site.xml3.2 修改hdfs-site.xml5.开启前的操作6.开启1.获取安装包下载编译好的安装包链接:https://pan.baidu.com/s/1jsDuIBX2ZA8FARTTlS-0Lw 提取码:9e1v 或...原创 2019-10-30 22:33:23 · 5796 阅读 · 0 评论 -
Hadoop(HDFS)常用命令
文章目录1.查看HDFS文件系统下所有的文件及目录2.从本地文件系统中复制单个或多个源路径到目标文件系统3.从本地文件系统中复制单个文件到目标文件系统4.从本地文件系统中复制单个文件到目标文件系统并将文件从本地删除5.将路径指定文件的内容输出到stdout(cat)6.将路径指定文件的内容输出到stdout(text)7.其余与Linux Shell命令大致一样1.查看HDFS文件系统下所有的文...原创 2019-10-28 11:14:38 · 5079 阅读 · 2 评论 -
hadoop(HDFS)安装教程--简单易懂
文章目录1.准备工作2.开始安装获取hadoop安装包官方文档修改环境变量修改配置文件3.格式化HDFS4.开启HDFS关闭防火墙 并永久关闭(关闭开机自启)1.准备工作创建一个LInux虚拟机并安装CentOS6.9的镜像配置网卡信息安装JDK1.8在/root目录下创建两个文件夹software --> hadoop安装包上传位置app --> ha...原创 2019-10-25 15:30:18 · 8141 阅读 · 1 评论