#在Ubuntu中搭建Hadoop到MapReduce文件上传
在Windows中使用VirtualBox安装Ubuntu
我们将实现在Windows操作系统下使用开源虚拟机软件VirtualBox安装Ubuntu,版本选择UbuntuKylin-14.04.6:
- 设置好cpu的虚拟环境,打开VirtualBox,点击“创建”按钮,创建一个虚拟机,根据自己的需求合理分配电脑资源,建议内存空间选择8GB;
- 载入下载好的系统镜像到虚拟机并启动,按步骤安装后进行磁盘分区,选择“清除整个磁盘并安装Ubuntu”;
- 进入系统后进行系统分辨率、时区、语言等基础设置;
- 设置用户名和密码;
- 出现不能联网的情况,切换当前网络模式到桥接模式;
创建Hadoop用户
如果安装 Ubuntu 的时候不是用的 “hadoop” 用户,那么需要增加一个名为 hadoop 的用户,打开终端窗口,输入命令创建新用户
sudo useradd -m hadoop -s /bin/bash
继续使用命令设置密码
sudo passwd hadoop
更新apt
Hadoop安装完成后,更新apt以便进行后续的软件安装。通过按ctrl+alt+t打开终端窗口,执行命令:sudo apt-get update 输入密码后可开始更新
Hadoop的环境搭建和配置过程
1、准备好两个文件:hadoop-2.10.0.tar.gz和jdk-8u162-linux-x64.tar.gz。
2、在自己的电脑上安装FileZilla,以便将上述两个文件上传到Ubuntu中。
SSH登录权限设置
集群、单节点模式都需要用到 SSH 登陆(类似于远程登陆,你可以登录某台 Linux 主机,并且在上面运行命令),Ubuntu 默认已安装了 SSH client,此外还需要安装 SSH server:
sudo apt-get install openssh-server
安装完毕后可以输入:ssh localhost登录到本机。
安装JAVA环境
1、把压缩格式的文件jdk-8u162-linux-x64.tar.gz下载到本地电脑,假设保存在“/home/linziyu/Downloads/”目录下。
2、在Linux命令行界面中,执行如下Shell命令(注意:当前登录用户名是hadoop):
cd /usr/lib
sudo mkdir jvm
cd ~
cd Downloads
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm
3、JDK文件解压缩以后,可以执行如下命令到/usr/lib/jvm目录查看一下
cd /usr/lib/jvm
ls
4、在/usr/lib/jvm目录下有个jdk1.8.0_162目录。
下面继续执行如下命令,设置环境变量
cd ~
vim ~/.bashrc
5、安装完成后可以通过输入:java-version查看是否安装成功,如下图:
Hadoop伪分布式配置
接下来需要进行hadoop伪分布式配置:
需要在hadoop配置文件夹 /usr/local/hadoop/etc/hadoop/ 中修改2个配置文件 core-site.xml 和 hdfs-site.xml。
用gedit打开 core-site.xml,在中间添加
配置,如下图:
用gedit打开配置文件: hdfs-site.xml ,操作如下:
配置完成后,执行 NameNode 的格式化:
cd /usr/local/hadoop
./bin/hdfs namenode -format
格式化后需要开启NameNode和DataNode守护进程
cd /usr/local/hadoop
./sbin/start-dfs.sh
启动完成后,可以通过命令jps来判断是否成功,如果成功会列出如下进程:“NameNode”、“DataNode”、“SecondaryNameNode”
若出现SSH提示,输入yes即可。
成功启动后,可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件
hadoop伪分布式实例
由于伪分布式读取的是HDFS上面的数据,如果要使用HDFSÿ