hadoop大数据-HDFS分布式文件系统及高可用

系列文章目录

hadoop大数据-HDFS分布式文件系统


一、hadoop简介

大数据主要两个点:分布式存储以及分布式计算,基本上计算的调度跟着存储走,因为迁移存储的成本高于计算
大数据是个生态,本次学习Hadoop的HDFS分布式文件系统
MapReduce离线计算
GFS演变成最底层的HDFS,整个上层的生态应用都是连得HDFS
在这里插入图片描述
CDH和HDP对于软件的兼容性和稳定性以及图形化的管理(帮你找到组件最优的搭配)
纯原生Apache,组件很多,你可能找不到最合适的组件搭配方法
在这里插入图片描述
分布式计算就是对海量数据的数据挖掘,从海量数据之间找到它们之间的联系,将有用的数据过滤出来存到关系型数据库中
Hadoop YARN 模块:整个分布式集群Hadoop大数据平台,开发人员提交计算任务,这些计算任务如何调度、监控、管理由该模块来处理(调度资源的模块)
集群的性能与管理器有着非常大的关系
在这里插入图片描述在这里插入图片描述

在这里插入图片描述
运维主要在这块负责业务,上面模块主要是开发负责
整个生态由运维来维护
hadoop用法与Mfs不一样,它是通过api的方式来使用的
在这里插入图片描述

二、Hadoop的搭建

官网:hadoop.apache.org
在这里插入图片描述用普通用户部署
在这里插入图片描述
在这里插入图片描述
做软链接方便,升级也方便,直接修改软链接就行

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
进入这个路径

在这里插入图片描述
修改hadoop的环境变量
在这里插入图片描述
告诉其java_home和hadoop_home的位置

在这里插入图片描述
hadoop部署分为3种:
本地独立模式
伪分布式模式
全分布式模式

2.1本地独立模式

在这里插入图片描述

启动hadoop
在这里插入图片描述

input存放准备录入的数据

在这里插入图片描述
在这里插入图片描述
output是输出目录,input目录提前创建,但是Output不要提前创建
在这里插入图片描述
在这里插入图片描述

2.1伪分布式模式的搭建

伪分布式模式:节点只有一个,运作方式是分布式的
在这里插入图片描述在这里插入图片描述

首先需要配置免密,因为通过免密登录work结点启动hadoop相应的进程
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这个路径下
在这里插入图片描述
里面定义的是Master
在这里插入图片描述
Localhost是master,这块地址时HDFS的master地址
在这里插入图片描述
ssh localhost ssh server1 都需要免密
在这里插入图片描述
在这个路径下
在这里插入图片描述
master和worker在一个节点上面
在这里插入图片描述
修改其副本数,默认情况下是3个
在这里插入图片描述
本地只有1个结点,所以副本数只能设置为1
在这里插入图片描述
在这里插入图片描述
做格式化在二进制命令那块
在这里插入图片描述
如果没有指定,默认的数据目录
在这里插入图片描述
启动脚本,该路径放了很多脚本,该脚本dfs.sh只启动HDFS相关的脚本
在这里插入图片描述
java的进程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
HDFS分布式,NAMENODE就是master,secondarynamenode是主节点故障后接管(可以帮主节点定期做元数据日志的合并,生成新的镜像文件),所有数据结点上的进程就叫datanode
在这里插入图片描述
在这里插入图片描述

自带图形化的接口

在这里插入图片描述在这里插入图片描述
指令的用法

在这里插入图片描述

查看分布式文件系统的概况
在这里插入图片描述
默认情况下,没有家目录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

该目录创建在分布式文件系统中

在这里插入图片描述
上传input目录

在这里插入图片描述
在这里插入图片描述
一旦称为分布式后,数据来源,存是分布式系统存,取也是分布式系统取,所有Input和output目录没有用了

在这里插入图片描述
统计input里面的词频输出到output,input ouput已经删掉了,所以它们读取的时候都是读取的分布式文件系统里面的
在这里插入图片描述
没有存到本机output,因为整个运作都是分布式的
在这里插入图片描述
在这里插入图片描述
Replication副本数
block size 是可以设定的
在这里插入图片描述
存在block0,在结点1上面

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
将output从分布式文件系统下载出来
在这里插入图片描述还原环境:
在这里插入图片描述

三、完成分布式的搭建

完全分布式的环境搭建

分布式文件系统一定要全平台一致
需要3个虚拟机,server1为master,server2\3是worker结点
所有结点的配置要一样
如何实现同步?nfs共享
通过该方式都不需要配置java hadoop环境变量都一样
在server1\2\3安装这个nfs套件
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
将所有往里面写的都映射成为1000,这样保证所有结点的权限是一致的
在这里插入图片描述

在这里插入图片描述
server2/3都要创建这个用户,都是第一个用户,所以都是1000,id一定要一致,全平台一致
在这里插入图片描述
在结点2和3都挂载这个目录
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
而且结点1/2/3免密,因为把这个用户目录挂载过去了,公钥私钥都一样

在这里插入图片描述

避免冲突将原先的数据删掉

在这里插入图片描述

完全分布式的配置

进入这个路径

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
写主机名字必须有解析
在这里插入图片描述

在这里插入图片描述
两个数据结点,副本可以设置为2
在这里插入图片描述
在这里插入图片描述
格式化
在这里插入图片描述
在这里插入图片描述
启动服务
在1启动namenode在2/3通过免密启动相应的进程
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
上传数据默认会传入用户主目录/user/hadoop
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述比单机版伪分布式快,因为有2个结点
在这里插入图片描述

四、hadoop结点扩容

再开启一个虚拟机4
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

进入这个路径

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
下线在配置文件加入这个参数
在这里插入图片描述
在这里插入图片描述
文件名自己指定
在这里插入图片描述
在这里插入图片描述
宿主机要加解析
在这里插入图片描述
刷新结点
在这里插入图片描述
server2将数据迁移到其他结点并且下线

强制server2下线
在这里插入图片描述

五、HDFS工作原理

CS结构
集群默认是3个副本
由于HDFS block大些所以小文件适合Mfs,大文件适合HDFS,内存的占用和文件数量有关和大小无关,小文件多的话会造成内存负担大
HDFS不适合随时更改文件
mfs适合随时更改,挂载上去,随时都可以改
在这里插入图片描述在这里插入图片描述
副本会存入离主机最近的地方

在这里插入图片描述列表顺序:
客户端和dn不在同一节点,hadoop有机架感应机制,第一个副本随机存入一个机架,第二个第三个副本存入不是第一个副本的机架的不同dn上面
客户端和dn在同一节点,第一个副本存在本机,第二个第三存在不同第一个机架的不同dn上面
在这里插入图片描述
根据顺序发挥列表

在这里插入图片描述
漫画图解原理:https://cloud.tencent.com/developer/article/1481758

六、hadoop分布式计算

在这里插入图片描述在这里插入图片描述

重启server2作为dn
在这里插入图片描述

进入这个路径

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
启动脚本

在这里插入图片描述
RM资源管理器,NN上开启RM
在这里插入图片描述
NM结点管理器,所有dn都会开启NM
在这里插入图片描述

在这里插入图片描述
客户端就是开发人员所用的开发工具

在这里插入图片描述

七、hadoop高可用部署

7.1hadoop高可用部署条件及原理

需要5台虚拟机
NN和RS都是单点,NN挂了(所有原数据记录),hadoop就挂了
hadoop官方自带的hadoop高可用套件
启动高可用后,SN就不再启动了
在这里插入图片描述

网上的文档下载到本地
在这里插入图片描述

底下的hadoop

在这里插入图片描述

在这里插入图片描述
实际生产NN和RM不在同一机器上,都是资源消耗多的

在这里插入图片描述

7.2hadoop高可用部署环境

环境:
停用所有相关进程
在这里插入图片描述

在这里插入图片描述
全部停掉
在这里插入图片描述
不要当前的数据对以后的集群造成影响
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在server1上面做,因为server1是NFS输出端,其它结点做还是会回传回来,慢
1和5做高可用,234做zookeeper集群jn日志结点dn和NM

7.3zookeeper集群的部署

所有结点必须有解析
首先部署3台zookeeper
在这里插入图片描述

主配置文件zoo.cfg

在这里插入图片描述
在这里插入图片描述

.1.2.3是服务器的编号

在这里插入图片描述

第一个端口号是Leader和follower通信,Leader是随机选举的

在这里插入图片描述
在结点2/3/4都这样做,id对应2/3/4
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
id同步
在这里插入图片描述
启动服务
在这里插入图片描述
同理2/3/4
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
监听端口2181
在这里插入图片描述

7.4hadoop的配置

hadoop集群只能有一个master
在这里插入图片描述
进入这个路径

在这里插入图片描述
在这里插入图片描述
不能写一个固定的Ip,要写一个浮动的
在这里插入图片描述

谁是当前的master是由zk集群确定的

在这里插入图片描述
在这里插入图片描述
这个masters和刚才修改的NN的名字保持一致,masters
在这里插入图片描述

在这里插入图片描述
Msater的机器叫h1h2,这个可以自己定义,都是masters要注意
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

图形化接口9870

在这里插入图片描述
IP
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
NN共享存储,但是是分布式的

在这里插入图片描述
日志结点2/3/4端口8485

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在server2/3/4

在这里插入图片描述
启动成功
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
格式化zk
在这里插入图片描述
通过免密也启动5
在这里插入图片描述
21752是故障切换器
在这里插入图片描述
Leader查看谁是master(原数据)
在这里插入图片描述
谁先向zk注册谁是active master
在这里插入图片描述

7.5高可用测试

主机
在这里插入图片描述
备机
在这里插入图片描述热备机制完成

用法和之前一样
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
部分截图
在这里插入图片描述在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
部分截图
在这里插入图片描述在这里插入图片描述
高可用部署成功

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
恢复
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值