Hadoop的安装实验报告

一、实验目的

1. 掌握Linux虚拟机的安装方法。Hadoop在Linux操作系统上运行可以发挥最佳性能。鉴于目前很多读者正在使用Windows操作系统,因此,为了完成本书的后续实验,这里有必要通过本实验让读者掌握在Windows操作系统上搭建Linux虚拟机的方法。

2. 掌握Hadoop的伪分布式安装方法。很多读者并不具备集群环境,需要在一台机器上模拟一个小的集群,因此,需要通过本实验让读者掌握在单机上进行Hadoop的伪分布式安装方法。

二、实验平台

操作系统: Windows 系统或者CentOS(推荐)。

虚拟机软件:推荐使用的开源虚拟机软件为VMware Workstation Player。 VMware Workstation Player是一款桌面虚拟化应用,无需重新启动即可在同一计算机上运行一个或多个操作系统。凭借其简单的用户界面、无可比拟的操作系统支持和移动性,用户可以比以往更轻松地使用公司桌面投入工作。可虚拟的系统包括Windows、MacOS X、Linux、OpenBSD、Solaris、 IBM OS2,甚至Android 4.0系统等。读者可以在Windows系统上安装VMware Workstation Player软件,然后在VMware Workstation Player上安装并且运行Linux操作系统。本次实验默认的Linux发行版为CentOS7。

三、实验内容和要求

1.下载相关软件

如果读者正在使用Linux 操作系统,可以跳过本步,不需要下载相关软件;如果正在使用Windows操作系统,请下载VMware Workstation Player软件和CentOS7镜像文件。

VMware Workstation Player软件的下载地址: https://www.vmware.com/products/workstation-player/workstation-player-evaluation.html

CentOS7的镜像文件下载地址: https://www.centos.org/download/。

2.安装Linux虚拟机

如果读者正在使用Linux操作系统,则不需要了解Windows系统上的Linux虚拟机安装方法;如果正在使用Windows操作系统,则需要在Windows系统上安装Linux虚拟机。首先,在Windows系统上安装虚拟机软件VMware Workstation Player软件;其次,在虚拟机软件VMware Workstation Player上安装CentOS7操作系统。

3.进行Hadoop伪分布式安装

在Linux环境下完成伪分布式环境的搭建,并运行Hadoop自带的WordCount实例检测是否运行正常。

步骤一、创建虚拟机

  1. 选择新建虚拟机

 

2.选择虚拟机类型

 

3.选择虚拟机磁盘空间

 

4更改虚拟机硬件环境

 

步骤二、安装Centos7操作系统

  1. 将ISO文件装入CD/DVD

 

  1. 选择安装语言

 

  1. 选择安装位置、安装类型

 

  1. 设置网络环境

  1. 设置root用户密码

  1. 安装文件

  1. 启动后设置

步骤三、设置CentOS7更新源

1. 下载repo文件(以163源为例)

wget http://mirrors.163.com/.help/CentOS7-Base-163.repo

2. 备份并替换系统的repo文件

cp CentOS7-Base-163.repo /etc/yum.repos.d/

cd /etc/yum.repos.d/

mv CentOS-Base.repo CentOS-Base.repo.bak

mv CentOS7-Base-163.repo CentOS-Base.repo

 

3. 执行yum源更新命令

yum clean all

yum makecache

yum update

 

 

步骤四、更改用户为sudoer用户

1. 切换到root用户

su –

2. 修改/etc/sudoers文件的权限,添加写权限

chmod 660 /etc/sudoers

3. 编辑sudoers文件,添加hadoop用户的权限

hadoop ALL=(ALL) ALL

 

4. 恢复sudoers文件原始权限

chmod 440 /etc/sudoers

5. 切回hadoop用户去测试一下,是否可适用sudo命令

步骤五、安装Java

一、压缩包的安装

1. 去官网下载对应版本的压缩包

2. 解压缩

tar -zxvf 压缩包名

3. 将解压缩的目录移动到指定位置

4. 修改系统配置文件

5. update-alternatives

二、yum在线安装

1. 查看支持的在线安装版本

yum -y list java*

2. 在线安装java

yum -y install 安装应用名称

3. 找到安装的路径

/usr/lib/jvm/……

 

4. 写入JAVA_HOME并修改PATH(在配置文件中bashrc或profile)

vi ~/.bashrc

JAVA_HOME=/usr/lib/jvm/……

PATH=$PATH:$JAVA_HOME/bin

 

  1. source 配置文件

 

6. 更新java

update-alternatives --install /usr/bin/java java /usr/lib/jvm/……/bin/java 300

update-alternatives --install /usr/bin/javac javac /usr/lib/jvm/……/bin/javac 300

update-alternatives --config java

7.查看JAVA

java -version

步骤六、设置SSH免密登陆

1. 生成密钥

ssh-keygen -t rsa

2.复制公钥到authorized_keys

~/.ssh/authorized_keys

cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

3. 测试免密登陆

ssh 机器名

 

步骤七、安装和配置Hadoop

一、hadoop程序的安装

1. 下载hadoop

hadoop.apache.org  (2.7.7)

2. 解压

tar -zxvf Hadoop的压缩包

3. 将解压后的目录移动指定目录

mv 解压后的目录 /usr/local/Hadoop

4. 修改系统环境变量

vi ~/.bashrc

 

5. 更新配置文件

source 配置文件

 

6. 检验

hadoop version

二、hadoop的配置

1. 伪分布式的配置:

core-site.xml

<configuration>

<property>

<name>hadoop.tmp.dir</name>

<value>file:/usr/local/hadoop/tmp</value>

</property>

<property>

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

hdfs-site.xml

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/Hadoop/tmp/dfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/Hadoop/tmp/dfs/data</value>

</property>

</configuration>

三、格式化分布式文件系统

hdfs namenode -format

四、启动hdfs

start-dfs.sh

五、验证

jps

或浏览器中输入:localhost:9870

 

  • 7
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
本次实验旨在学习Hadoop分布式计算框架的部署和使用,以下是实验报告: 一、实验环境 1. 虚拟机软件:VMware Workstation Pro 16 2. 操作系统:Ubuntu Server 18.04 LTS 3. Hadoop版本:Hadoop-2.7.7 4. Java版本:OpenJDK 8 二、实验步骤 1. 安装Java 在Ubuntu系统上安装OpenJDK 8: ``` sudo apt-get update sudo apt-get install openjdk-8-jdk ``` 2. 下载Hadoop 从官网下载Hadoop-2.7.7版本:https://hadoop.apache.org/releases.html 3. 配置Hadoop 解压Hadoop文件,将其放置在指定目录下(此处为/usr/local/hadoop/): ``` sudo tar -zxvf hadoop-2.7.7.tar.gz -C /usr/local/ sudo mv /usr/local/hadoop-2.7.7 /usr/local/hadoop ``` 配置Hadoop环境变量: ``` sudo nano ~/.bashrc ``` 在文件末尾添加以下内容: ``` export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` 保存并退出,然后使用以下命令使环境变量生效: ``` source ~/.bashrc ``` 4. 配置Hadoop集群 首先,在master节点上创建一个名为“hadoop”的用户,并设置密码: ``` sudo adduser hadoop sudo passwd hadoop ``` 然后在master节点和slave节点上安装ssh服务: ``` sudo apt-get install ssh ``` 生成ssh密钥: ``` ssh-keygen -t rsa ``` 将公钥复制到所有slave节点: ``` ssh-copy-id hadoop@slave1 ssh-copy-id hadoop@slave2 ... ``` 编辑Hadoop的配置文件/etc/hadoop/core-site.xml,添加以下内容: ``` <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> </configuration> ``` 其中“master”是master节点的主机名。 编辑Hadoop的配置文件/etc/hadoop/hdfs-site.xml,添加以下内容: ``` <configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/hadoop/data/nameNode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/hadoop/data/dataNode</value> </property> </configuration> ``` 其中“dfs.replication”表示数据副本数,这里设置为3;“dfs.namenode.name.dir”表示NameNode的数据存储位置,“dfs.datanode.data.dir”表示DataNode的数据存储位置。 编辑Hadoop的配置文件/etc/hadoop/mapred-site.xml,添加以下内容: ``` <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` 编辑Hadoop的配置文件/etc/hadoop/yarn-site.xml,添加以下内容: ``` <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> ``` 其中“yarn.resourcemanager.hostname”表示ResourceManager的主机名,“yarn.nodemanager.aux-services”表示NodeManager的辅助服务。 5. 启动Hadoop集群 启动Hadoop集群: ``` start-all.sh ``` 使用jps命令查看Hadoop进程: ``` jps ``` 输出如下: ``` 24012 Jps 23632 ResourceManager 23355 NameNode 23824 NodeManager 23519 SecondaryNameNode ``` 6. 验证Hadoop集群 在Hadoop集群中上传文件: ``` hdfs dfs -mkdir /input hdfs dfs -put /usr/local/hadoop/etc/hadoop/*.xml /input ``` 运行Hadoop自带的wordcount例子: ``` hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /input /output ``` 查看结果: ``` hdfs dfs -cat /output/part-r-00000 ``` 输出如下: ``` "1 "2 "3 "4 "5 "6 "7 "8 "9 "a 2 ``` 至此,Hadoop集群部署实验完成。 三、实验总结 通过本次实验,我学习了Hadoop分布式计算框架的部署和使用方法,了解了Hadoop集群的配置和启动方式,并成功运行了Hadoop自带的wordcount例子,加深了对Hadoop的理解和应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值