Hadoop伪分布式安装搭建教程

文章目录

  • 安装VMware虚拟机
  • 下载Ubuntu 18.04镜像,并在VMware中新建虚拟机
  • 安装VMware tools
  • 搭建Hadoop伪分布式

1、安装VMware虚拟机

1.安装VMware Workstation 14 Pro版本

2、下载Ubuntu 18.04镜像,并在VMware中新建虚拟机

2.1 在VMware上方菜单栏,文件--新建虚拟机

 2.2 默认

 2.3 选择稍后安装操作系统

2.4 选择Linux(L),版本 Ubuntu

 

 2.5 定义虚拟机的名称,选择虚拟机的位置,本人选择放在了D盘

 2.6 处理器配置根据自己情况自己选择,这里选择了处理器数量2,内核数量2

 2.7 虚拟机内存设为2048 MB

 2.8 默认

 2.9 默认

 2.10 默认

 2.11 选择创建新虚拟磁盘

 2.12 磁盘容量设为40G

 然后一直下一步 创建完成

2.13 编辑虚拟机设置

 2.14 在CD/DVD(SATAT)--连接--使用ISO映像文件,选择Ubuntu18.04的镜像文件的路径,点击确定,启动虚拟机,进行Ubuntu18.04的安装,一直选择默认的就能安装成功。

3、安装VMware Tools

3.1 打开Ubuntu系统,在VMware菜单栏里点击虚拟机选项,找到安装VMware tools选项,点击,本人已安装成功,显示重新安装

3.2  然后进入系统,在右边任务栏中找到DVD图标,打开后找到VMware Tools压缩文件,并将其复制到桌面

 3.3  点击左侧文件,主文件夹--桌面,单机右键打开终端,可使用命令解压

tar -zxvf VMwareTools-10.2.5-8068393.tar.gz

3.4 进入解压完成的文件夹:cd vmware-tools-distrib

 3.5 执行文件夹下的可执行文件,命令:sudo ./vmware-install.pl

第一个[no]输入yes,后面的都按Entre,有Yes输入tes,就安装成功

3.6 安装成功,虚拟机窗口为自动适应

4、Hadoop伪分布式搭建

4.1 单击右键,打开命令终端
4.2 创建新用户,首先切换为root用户,添加新用户​​​​​​​hadoop

su root

注:若提示“su: Authentication failure”,原因应该是没有设置root账户的密码

参考:(5条消息) su 报错su: Authentication failure_逐鹿艾缇的博客-CSDN博客

adduser hadoop

4.3 由于部门权限规定或安全限制,负责部署hadoop的管理员没有linux root权限,但按照最佳做法,安装时有一些操作需要以root用户身份执行。以下给予该用户root权限:

sudo adduser hadoop sudo

执行visudo命令,修改该文件,在“root ALL=(ALL:ALL) ALL”这一行下面加入一行:

hadoop ALL=(ALL:ALL) ALL

visudo

4.4 更新命令 

sudo apt-get update
sudo apt-get upgrade

4.5 部分linux系统会自带vim编辑器,但若在终端无法启动该编辑器,则需要安装以待后续编辑配置文件,接下来跳出的提示回复Y即可:

sudo apt-get install vim

4.6  配置SSH

4.6.1 下载SSH,安装SSH server

根据Hadoop分布式系统的特性,在任务计划分发、心跳监测、任务管理、多租户管理等功能上,需要通过SSH(Secure Shell)进行通讯,所以必须安装配置SSH。另因为Hadoop没有提供SSH输入密码登录的形式,因此需要将所有机器配置为NameNode可以无密码登录的状态。

sudo apt-get install openssh-server

4.6.2 连接本地SSH

ssh localhost

4.7 设置无密码登录

4.7.1 进行无密码登录的设置,首先先退出刚刚ssh localhost的连接:

exit

4.7.2 进入SSH对应目录下,该目录包含了几乎所有当前用户SSH配置认证相关的文件:

cd ~/.ssh/

4.7.3 输入生成SSH私钥与公钥的命令,-t用于声明密钥的加密类型,输入Hadoop密码。这一步会提醒设置SSH密码,输入密码时直接回车就表示无密码,第二次输入密码回车确定,最后一次提交:

ssh-keygen -t rsa

 4.7.4 将生成的SSH的公钥加入目标机器的SSH目录下,这里采用cat命令与>>,cat file1>>file2的含义为将file1内容append到file2中。

cat ./id_rsa.pub >> ./authorized_keys

4.8 在虚拟机中安装JDK

4.8.1 下载对应版本的JDK,解压到指定目录下,将文件名换成对应的即可

sudo tar -zxvf jdk-8u212-linux-x64.tar.gz -C /usr/local/jdk1.8

4.8.2  配置环境变量

1.通过vim编辑器打开环境变量的设置文件:

sudo vim ~/.bashrc

2.首先到达文件尾部,按o字母在当前行的下一行添加以下语句:

export JAVA_HOME=/usr/local/jdk1.8
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

3.按Esc键退出,然后输入:wq保存修改。然后使环境变量生效:

source ~/.bashrc

4.9 下载编译好的hadoop

4.9.1 下载hadoop-2.9.2.tar.gz 云盘链接:https://pan.baidu.com/s/1U_Yo4c4xRXh3djIAXkXhJA 
提取码:d3nv

4.9.2 在VMware中与电脑进行共享文件

参考链接:(5条消息) 如何在VMWare的Ubuntu虚拟机中设置共享文件夹_Vincent3016的博客-CSDN博客

4.9.3 进入解压包存放的文件夹,右键属性查看压缩包的绝对路径,然后解压至/usr/local目录下:

sudo tar -zxf /home/wangyu/share/hadoop-2.9.2.tar.gz -C /usr/local

4.9.4 进入刚刚解压后存放的目录下:

cd /usr/local/

4.9.5 将该文件夹的名字重命名为hadoop,屏蔽掉版本号的信息,使得后续命令行输入更为简便:

sudo mv ./hadoop-2.9.2/ ./hadoop

4.10 配置hadoop的环境

4.10.1 将已重命名的该文件夹的拥有者,指定给用户hadoop,缺少这一步,将导致后续操作特别是运行Hadoop时,反复因权限不足而停止:

sudo chmod 777 -R /usr/local/hadoop

R:对目前目录下的所有档案与子目录进行相同的权限变更(即以递回的方式逐个变更)

777:高权限(读、写、执行)

4.10.2  hadoop实际运行时仍会出现找不到java-jdk的现象,故再对hadoop的环境文件进行修改,进入目录:

cd ./hadoop/etc/hadoop

4.10.3 使用vim编辑器,打开环境变量文件:

sudo vim ~/.bashrc

4.10.4 按字母o在当前行的下一行添加该语句:

#HADOOP VARIABLES START 
export HADOOP_INSTALL=/usr/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL 
export HADOOP_COMMON_HOME=$HADOOP_INSTALL 
export HADOOP_HDFS_HOME=$HADOOP_INSTALL 
export YARN_HOME=$HADOOP_INSTALL 
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"
#HADOOP VARIABLES END 

4.10.5 按Esc键退出,然后输入:wq保存修改。然后使环境变量生效:

source ~/.bashrc

4.10.6 hadoop框架已经搭建好了,可以通过调用版本号进行测试hadoop是否可用,正确搭建应该能看到hadoop的版本号等信息:

cd /usr/local/hadoop
./bin/hadoop version

 4.11 配置文件

1. 打开hadoop文件夹下的hadoop文件中,配置hadoop-env.sh

sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh

添加如下代码

# The java implementation to use. 
export JAVA_HOME=/usr/local/jdk1.8
export HADOOP=/usr/local/hadoop
export PATH=$PATH:/usr/local/hadoop/bin

2.先打开 core-site.xml文件,将<configuration>替换为以下内容

sudo vim /usr/local/hadoop/etc/hadoop/core-site.xml
<configuration>
        <property>
             <name>hadoop.tmp.dir</name>
             <value>file:/usr/local/hadoop/tmp</value>
             <description>Abase for other temporary directories.</description>
        </property>
        <property>
             <name>fs.defaultFS</name>
             <value>hdfs://localhost:9000</value>
        </property>
</configuration>

3.打开hdfs-site.xml文件:hdfs-site.xml进行同样的替换操作

sudo vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml
<configuration>
        <property>
             <name>dfs.replication</name>
             <value>1</value>
        </property>
        <property>
             <name>dfs.namenode.name.dir</name>
             <value>file:/usr/local/hadoop/tmp/dfs/name</value>
        </property>
        <property>
             <name>dfs.datanode.data.dir</name>
             <value>file:/usr/local/hadoop/tmp/dfs/data</value>
        </property>
</configuration>

 5. 打开yarn-env.sh,配置yarn-env.sh文件,添加以下代码

sudo vim /usr/local/hadoop/etc/hadoop/yarn-env.sh
# export JAVA_HOME
JAVA_HOME=/usr/local/jdk1.8

6.配置yarn-site.xml,将<configuration>替换为以下内容

sudo vim /usr/local/hadoop/etc/hadoop/yarn-site.xml
<configuration> 
<!-- Site specific YARN configuration properties -->
    <property> 
        <name>yarn.nodemanager.aux-services</name> 
        <value>mapreduce_shuffle</value> 
    </property> 
    <property> 
        <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> 
        <value>org.apache.hadoop.mapred.ShuffleHandler</value> 
    </property> 
    <property> 
        <name>yarn.resourcemanager.address</name> 
        <value>127.0.0.1:8032</value> 
    </property> 
    <property> 
        <name>yarn.resourcemanager.scheduler.address</name> 
        <value>127.0.0.1:8030</value> 
    </property> 
    <property> 
        <name>yarn.resourcemanager.resource-tracker.address</name> 
        <value>127.0.0.1:8031</value> 
    </property> 
</configuration>

4.12 启动HDFS伪分布式模式

1. 格式化namenode

hdfs namenode -format

显示信息内若包含以下内容successfully formatted,则说明成功格式化:

2.启动hdfs

start-all.sh

3.显示进程

jps

有6个进程表示正确:

 4.打开浏览器,输入http://localhost:50070/,若打不开网址,把localhost换成本机ip地址

输入http://localhost:8088/,显示

 

 

  • 5
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值