Hadoop安装及环境变量配置

Hadoop 是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
简而言之:
Hadoop是一个开源分布式系统架构

分布式文件系统HDFS——解决大数据存储
分布式计算框架MapReduce——解决大数据计算
分布式资源管理系统YARN

处理海量数据的架构首选
非常快得完成大数据计算任务
已发展成为一-个Hadoop生态圈

为什么使用Hadoop

高扩展性,可伸缩
高可靠性----多副本机制,容错高
低成本.
无共享架构
灵活,可存储任意类型数据
开源,社区活跃

Hadoop发展及版本

Hadoop起源于搜索引擎Apache Nutch
创始人:Doug Cutting
2004年 - 最初版本实施
2008年 - 成为Apache顶级项目
Hadoop发行版本
社区版:Apache Hadoop
Cloudera发行版:CDH
Hortonworks发行版:HDP

Hadoop与关系型数据库对比

Hadoop与关系型数据库对比

Hadoop机理
在这里插入图片描述

Hadoop安装及环境配置

首先下载Hadoop,置入虚拟机系统并解压(此处使用的Hadoop是2.6.0版本)

在这里插入图片描述
第一步、配置 hadoop-env.sh
在这里插入图片描述
第二步、配置core-site.xml
在这里插入图片描述
fs.defaultFS配置端口
hadoop.tmp.dir是hadoop文件系统依赖的基础配置,很多路径都依赖它。它默认的位置是在/tmp/{$user}下面,但是在/tmp路径下的存储是不安全的,因为linux一次重启,文件就可能被删除。将其更改后,后续需要重新格式化namenode节点 bin/hadoop namenode -format

在这里插入图片描述
第三步、配置hdfs-site.xml
在这里插入图片描述
第四步、配置mapred-site.xml
在这里插入图片描述
第五步、配置yarn-site.xml
在这里插入图片描述
整体步骤:
在这里插入图片描述

配置全局变量

命令 vi /etc/profile
在这里插入图片描述
添加的全局变量
只需根据自己的hadoop位置修改hadoop_home的值即可
export HADOOP_HOME=/opt/soft/hadoop260
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

在这里插入图片描述
启动hadoop 命令: start-all.sh

查看安装是否成功:
jps命令查看进程
在这里插入图片描述
本机访问 http://192.168.56.100:50070 即虚拟机的IP+端口号50070进入监控界面查看

在这里插入图片描述

  • 6
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop YARN ,HA 集群是指将多个 YARN ResourceManager 节点组成一个高可用的集群,以提高系统的可靠性和稳定性。在 HA 集群,多个 ResourceManager 节点可以相互备份,以保证在某个节点故障时,系统仍能正常运行。 在配置 YARN HA 集群时,可以使用环境变量设置一些参数,以便更好地控制 HA 集群的行为。下面介绍如何使用环境变量配置 YARN HA 集群。 1. 配置 yarn-site.xml 文件 首先,在 yarn-site.xml 文件配置 HA 相关的参数。以下是一个示例配置: ``` <property> <name>yarn.resourcemanager.ha.enabled</name> <value>true</value> </property> <property> <name>yarn.resourcemanager.cluster-id</name> <value>mycluster</value> </property> <property> <name>yarn.resourcemanager.ha.rm-ids</name> <value>rm1,rm2</value> </property> <property> <name>yarn.resourcemanager.hostname.rm1</name> <value>rm1-hostname</value> </property> <property> <name>yarn.resourcemanager.hostname.rm2</name> <value>rm2-hostname</value> </property> ``` 其: - yarn.resourcemanager.ha.enabled 表示开启 HA 功能; - yarn.resourcemanager.cluster-id 表示 HA 集群的唯一标识符; - yarn.resourcemanager.ha.rm-ids 表示 HA 集群每个 ResourceManager 的标识符; - yarn.resourcemanager.hostname.rm1 和 yarn.resourcemanager.hostname.rm2 分别表示每个 ResourceManager 的主机名。 2. 配置环境变量 接下来,需要配置环境变量来指定 HA 集群的一些参数。以下是一个示例配置: ``` export HADOOP_YARN_HOME=/usr/local/hadoop-2.7.3 export YARN_CONF_DIR=$HADOOP_YARN_HOME/etc/hadoop export YARN_RESOURCEMANAGER_HA_RM_IDS=rm1,rm2 export YARN_RESOURCEMANAGER_HA_RM-1_HOSTNAME=rm1-hostname export YARN_RESOURCEMANAGER_HA_RM-2_HOSTNAME=rm2-hostname export YARN_RESOURCEMANAGER_HA_CLUSTER_ID=mycluster ``` 其: - HADOOP_YARN_HOME 表示 YARN 的安装路径; - YARN_CONF_DIR 表示 YARN 的配置文件路径; - YARN_RESOURCEMANAGER_HA_RM_IDS 表示 HA 集群每个 ResourceManager 的标识符; - YARN_RESOURCEMANAGER_HA_RM-1_HOSTNAME 和 YARN_RESOURCEMANAGER_HA_RM-2_HOSTNAME 分别表示每个 ResourceManager 的主机名; - YARN_RESOURCEMANAGER_HA_CLUSTER_ID 表示 HA 集群的唯一标识符。 3. 启动 YARN 最后,启动 YARN,并检查 HA 集群是否正常工作。可以使用以下命令启动 YARN: ``` $YARN_HOME/sbin/yarn-daemon.sh start resourcemanager ``` 注意,这里的 $YARN_HOME 是指 YARN 的安装路径。启动成功后,可以通过 Web 界面或命令行工具来检查 HA 集群的状态。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值