Hadoop
weixin_44729445
这个作者很懒,什么都没留下…
展开
-
配置多台机器SSH相互通信信任
1.5台机器执行 ssh-keygen[root@sht-sgmhadoopnn-01 ~]# ssh-keygenGenerating public/private rsa key pair.Enter file in which to save the key (/root/.ssh/id_rsa): Created directory '/root/.ssh'.Enter pass...原创 2019-07-12 18:04:02 · 177 阅读 · 0 评论 -
Yarn架构设计
ResourceManager(RM):负责对各NM上的资源进行统一管理和调度。将AM分配空闲的Container运行并监控其运行状态。对AM申请的资源请求分配相应的空闲Container。主要由两个组件构成:调度器和应用程序管理器。调度器(Scheduler):调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作业等),将系统中的资源分配给各个正在运行的应...原创 2019-07-17 19:34:20 · 93 阅读 · 0 评论 -
YARN工作流程
用户向yarn提交job,其中包含application master程序、启动application master的命令等RM为该job分配第一个container,与对应的NM通信,要求它在这个container启动作业的application masterapplication master向application manager注册,这样用户就可以通过RM web查看job的状态,...原创 2019-07-17 19:44:39 · 130 阅读 · 0 评论 -
yarn的调度器
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但实际情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能得到相应的资源。在yarn中,负责给应用分配资源的就是scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,yarn提供了多种调度器和可配置的策略供我们选择。在yarn中有三种调度器可以选择:FIFO...原创 2019-07-26 00:06:48 · 128 阅读 · 0 评论 -
HDFS HA架构图
HA使用active NN, standby NN两个节点解决单点问题。两个NN节点通过JN集群,共享数据状态,通过ZKFC选举active(zookeeper有可能选举不成功,因为zookeeper机器上的负载较重),监控状态,自动备援。DN会同时向两个NN节点发送心跳。我们的客户端其实不关心谁是active,谁是standby,客户端通过命名空间(nameservice1,不是进程,仅是一...原创 2019-08-21 00:45:40 · 288 阅读 · 0 评论 -
Yarn HA架构图
RM启动时会通过向zk的/hadoop-ha目录写一个lock文件,写成功则为active,否则为standby。standby RM会一直监控lock文件是否存在,如果不存在就会尝试去创建,争取为active rm。会接收客户端的任务请求,接收和监控nm的资源的汇报,负责资源的分配与调度,启动和监控ApplicationMaster(AM)。NM节点上的资源的管理,启动contai...原创 2019-08-21 09:29:39 · 185 阅读 · 0 评论 -
HDFS HA和Yarn HA架构的区别
主要区别有两点:zkfc1)在hdfs ha架构中,zkfc是一个独立的进程2)在yarn ha架构中,zkfc直接内嵌到rm进程里作为线程hdfs ha是由独立的中间件的数据集群来维护,而yarn属于作业调度,它是维护在zk里面...原创 2019-08-21 09:37:02 · 197 阅读 · 0 评论 -
Hadoop集群部署
版本JRE:jdk-8u45-linux-x64.gzhadoop:hadoop-2.6.0-cdh5.15.1.tar.gzzookeeper:zookeeper-3.4.6.tar.gz基本操作1、创建hadoop用户并切入[root@ruozedata001 ~]# useradd hadoop[root@ruozedata001 ~]# su - hadoop2、创建目录...原创 2019-08-25 17:00:14 · 178 阅读 · 0 评论 -
HDFS的安全模式
安全模式是hdfs的一种工作状态,处于安全模式的状态下,只向客户端提供文件的只读视图,不接受对命名空间的修改;同时名字节点也不会进行数据块的复制或者删除,如副本数量小于正常水平。namenode启动时,首先将fsimage载入内存,并执行编辑日志中的操作。一旦文件系统元数据建立成功,便会创建一个空的编辑日志。此时namenode开始监听rpc和http请求。但是此时NameNode处于安全模式,...原创 2019-08-21 19:44:54 · 126 阅读 · 0 评论 -
hdfs读写流程
hdfs读流程[hadoop@hadoop001 hadoop]$ bin/hdfs dfs -cat /examples/output1/part-r-0000019/07/07 20:09:47 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using built...原创 2019-07-17 18:15:29 · 199 阅读 · 0 评论 -
生产HDFS Block损坏恢复最佳实践
一.文件ruozedata.md上传:-bash-4.2$ hdfs dfs -mkdir /blockrecover-bash-4.2$ echo "www.ruozedata.com" > ruozedata.md-bash-4.2$ hdfs dfs -put ruozedata.md /blockrecover-bash-4.2$ hdfs dfs -ls /blockr...原创 2019-07-17 00:43:53 · 152 阅读 · 0 评论 -
hostname启动Hadoop
1、Hadoop组件namenode:nn 名称节点,老大datanode:dn 数据节点,小弟,真正做数据的读写操作的secondary namenode:snn 第二名称节点,老二——主从架构(大数据组件大部分都是主从架构)2、启动Hadoop[hadoop@hadoop001 hadoop]$ sbin/start-dfs.sh19/07/03 21:02:04 WARN...原创 2019-07-15 13:40:33 · 189 阅读 · 0 评论 -
大数据入门之jps
jpsjps是jdk提供的一个显示当前所有java进程pid的命令,适合在linux/unix平台上简单察看当前系统的java进程情况及进程id。类似于Linux系统里的ps命令,这个命令主要是用来显示当前系统的进程情况,有哪些进程以及进程id。1、位置——在jdk目录下,与Java平级[hadoop@hadoop001 hadoop]$ which jps/usr/java/jdk1....原创 2019-07-15 15:42:55 · 418 阅读 · 0 评论 -
大数据入门之pid文件
1、pid文件是以“.pid”结尾的文件,也是hdfs进程启动、停止所需的文件。pid文件只有一行,记录的是相应进程的 pid,即进程号。pid文件默认存储在/tmp目录下[hadoop@hadoop001 tmp]$ ll-rw-rw-r--. 1 hadoop hadoop 5 Jul 3 21:49 hadoop-hadoop-datanode.pid-rw-rw-r--....原创 2019-07-15 20:11:09 · 927 阅读 · 0 评论 -
hdfs上的副本放置策略
副本数伪分布式:只有一台机器,副本数据只能为1,相当于一个文件夹不可能创建2个名字一模一样的文件生产上:副本数(dfs.replication )一般是官方默认参数:3例题:块大小128M,副本数3份一个文件260m,请问多少块,多少实际存储?260%128=2…4m 3个块*3个副本=9个块260m * 3 =780m副本数考量生产上,副本数一般是官方默认参数: 3份,但在实...原创 2019-07-16 13:06:03 · 310 阅读 · 0 评论 -
block块的理解
1、块大小默认容量规格:128m一个文件130m,则130%128=1…2,它会被切分为两个块,一个块128m,一个块2m2、hdfs适用场景:大文件存储,小文件是致命的生产上,小文件的阈值由自己估算,一般会设阈值<=30m的文件为小文件,nn节点维护的字节大约250字节,假设nn内存为4g=42亿字节,那么最多可以放42亿/250b=1700万个小文件3、如何合并小文件?(场...原创 2019-07-16 13:05:44 · 320 阅读 · 0 评论 -
Hadoop的伪分布式部署
Hadoop介绍1.定义广义:以Apache Hadoop软件为主的生态圈狭义:Apache Hadoop软件2.Hadoop软件的组件存储:hdfs 分布式文件系统,需要部署计算:mapreduce 分布式计算,在企业中很少用,不需要部署资源(memory内存、CPU处理器)和作业调度:yarn,需要部署安装条件及软件说明Linux环境配置ssh服务Hadoop版本:h...原创 2019-07-12 12:30:42 · 153 阅读 · 0 评论 -
调试ssh信任关系
1.生成公钥和私钥$ ssh-keygen 回车,再回车默认在~/.ssh目录下生成两个文件:id_rsa:私钥id_rsa.pub:公钥2.导入公钥到认证文件$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys3.测试本机无密码登陆$ ssh master date回车提示需要输入密码---->那么就不对了4...原创 2019-07-12 12:53:52 · 114 阅读 · 0 评论 -
hdfs架构
NameNode(nn)名称节点1)存储文件系统的命名空间,包括:文件名称文件目录结构文件属性(权限、创建时间、副本数)文件对应的哪些块(副本块),块对应在哪些dn节点上nn一般不会持久化存储这个map的映射关系,一般是在集群启动和运行时,dn定期的发送blockreport给nn,那么nn就在内存中动态维护这种映射关系。2)对于NameNode如何存储这些信息,它维护两个文件...原创 2019-07-17 00:37:52 · 130 阅读 · 0 评论 -
hdfs高阶命令
[hadoop@ruozedata001 hadoop]$ hdfs haadminUsage: DFSHAAdmin [-ns <nameserviceId>] [-transitionToActive <serviceId> [--forceactive]] [-transitionToStandby <serviceId>] [-...原创 2019-08-28 15:34:47 · 453 阅读 · 0 评论