hadoop大数据-HDFS分布式文件系统及高可用

置顶 redhat_yan

已于 2022-03-01 22:21:15 修改

阅读量2k

点赞数 2

分类专栏： hadoop 文章标签： bash linux 开发语言

于 2022-03-01 22:19:29 首次发布

本文链接：https://blog.csdn.net/westos_yanzheng/article/details/123208079

版权

hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

系列文章目录

hadoop大数据-HDFS分布式文件系统

系列文章目录
一、hadoop简介
二、Hadoop的搭建
- 2.1本地独立模式
- 2.1伪分布式模式的搭建
三、完成分布式的搭建
- 完全分布式的环境搭建
- 完全分布式的配置
四、hadoop结点扩容
五、HDFS工作原理
六、hadoop分布式计算
七、hadoop高可用部署

一、hadoop简介

大数据主要两个点：分布式存储以及分布式计算，基本上计算的调度跟着存储走，因为迁移存储的成本高于计算
大数据是个生态，本次学习Hadoop的HDFS分布式文件系统
MapReduce离线计算
GFS演变成最底层的HDFS，整个上层的生态应用都是连得HDFS
在这里插入图片描述
CDH和HDP对于软件的兼容性和稳定性以及图形化的管理（帮你找到组件最优的搭配）
纯原生Apache，组件很多，你可能找不到最合适的组件搭配方法

分布式计算就是对海量数据的数据挖掘，从海量数据之间找到它们之间的联系，将有用的数据过滤出来存到关系型数据库中
Hadoop YARN 模块：整个分布式集群Hadoop大数据平台，开发人员提交计算任务，这些计算任务如何调度、监控、管理由该模块来处理（调度资源的模块）
集群的性能与管理器有着非常大的关系
在这里插入图片描述

在这里插入图片描述
运维主要在这块负责业务，上面模块主要是开发负责
整个生态由运维来维护
hadoop用法与Mfs不一样，它是通过api的方式来使用的

二、Hadoop的搭建

官网：hadoop.apache.org
在这里插入图片描述用普通用户部署

做软链接方便，升级也方便，直接修改软链接就行

在这里插入图片描述

进入这个路径

在这里插入图片描述
修改hadoop的环境变量

告诉其java_home和hadoop_home的位置

在这里插入图片描述
hadoop部署分为3种：
本地独立模式
伪分布式模式
全分布式模式

2.1本地独立模式

在这里插入图片描述

启动hadoop
在这里插入图片描述

input存放准备录入的数据

在这里插入图片描述

output是输出目录，input目录提前创建，但是Output不要提前创建

2.1伪分布式模式的搭建

伪分布式模式：节点只有一个，运作方式是分布式的
在这里插入图片描述

首先需要配置免密，因为通过免密登录work结点启动hadoop相应的进程
在这里插入图片描述

在这个路径下

里面定义的是Master

Localhost是master，这块地址时HDFS的master地址

ssh localhost ssh server1 都需要免密

在这个路径下

master和worker在一个节点上面

修改其副本数，默认情况下是3个

本地只有1个结点，所以副本数只能设置为1
在这里插入图片描述

做格式化在二进制命令那块

如果没有指定，默认的数据目录

启动脚本，该路径放了很多脚本，该脚本dfs.sh只启动HDFS相关的脚本

java的进程

在这里插入图片描述

HDFS分布式，NAMENODE就是master，secondarynamenode是主节点故障后接管（可以帮主节点定期做元数据日志的合并，生成新的镜像文件），所有数据结点上的进程就叫datanode

自带图形化的接口

在这里插入图片描述
指令的用法

在这里插入图片描述

查看分布式文件系统的概况
在这里插入图片描述
默认情况下，没有家目录

在这里插入图片描述

该目录创建在分布式文件系统中

在这里插入图片描述
上传input目录

在这里插入图片描述

一旦称为分布式后，数据来源，存是分布式系统存，取也是分布式系统取，所有Input和output目录没有用了

在这里插入图片描述
统计input里面的词频输出到output，input ouput已经删掉了，所以它们读取的时候都是读取的分布式文件系统里面的

没有存到本机output，因为整个运作都是分布式的

Replication副本数
block size 是可以设定的
在这里插入图片描述
存在block0,在结点1上面

在这里插入图片描述

将output从分布式文件系统下载出来
还原环境：

三、完成分布式的搭建

完全分布式的环境搭建

分布式文件系统一定要全平台一致
需要3个虚拟机，server1为master,server2\3是worker结点
所有结点的配置要一样
如何实现同步？nfs共享
通过该方式都不需要配置java hadoop环境变量都一样
在server1\2\3安装这个nfs套件
在这里插入图片描述

将所有往里面写的都映射成为1000，这样保证所有结点的权限是一致的