在Ubuntu中搭建Hadoop到MapReduce文件上传

本文详细介绍了如何在Ubuntu上利用VirtualBox搭建Hadoop环境,包括创建Hadoop用户、安装更新、配置Hadoop、设置SSH登录、安装JAVA、配置Hadoop-Eclipse-Plugin,并通过Eclipse运行MapReduce程序进行文件字数统计。
摘要由CSDN通过智能技术生成

#在Ubuntu中搭建Hadoop到MapReduce文件上传

在Windows中使用VirtualBox安装Ubuntu

我们将实现在Windows操作系统下使用开源虚拟机软件VirtualBox安装Ubuntu,版本选择UbuntuKylin-14.04.6:

  1. 设置好cpu的虚拟环境,打开VirtualBox,点击“创建”按钮,创建一个虚拟机,根据自己的需求合理分配电脑资源,建议内存空间选择8GB;
  2. 载入下载好的系统镜像到虚拟机并启动,按步骤安装后进行磁盘分区,选择“清除整个磁盘并安装Ubuntu”;
  3. 进入系统后进行系统分辨率、时区、语言等基础设置;
  4. 设置用户名和密码;
  5. 出现不能联网的情况,切换当前网络模式到桥接模式;

创建Hadoop用户

如果安装 Ubuntu 的时候不是用的 “hadoop” 用户,那么需要增加一个名为 hadoop 的用户,打开终端窗口,输入命令创建新用户

sudo useradd -m hadoop -s /bin/bash

继续使用命令设置密码

sudo passwd hadoop

更新apt

Hadoop安装完成后,更新apt以便进行后续的软件安装。通过按ctrl+alt+t打开终端窗口,执行命令:sudo apt-get update 输入密码后可开始更新

Hadoop的环境搭建和配置过程

1、准备好两个文件:hadoop-2.10.0.tar.gz和jdk-8u162-linux-x64.tar.gz。
2、在自己的电脑上安装FileZilla,以便将上述两个文件上传到Ubuntu中。

SSH登录权限设置

集群、单节点模式都需要用到 SSH 登陆(类似于远程登陆,你可以登录某台 Linux 主机,并且在上面运行命令),Ubuntu 默认已安装了 SSH client,此外还需要安装 SSH server:

sudo apt-get install openssh-server

安装完毕后可以输入:ssh localhost登录到本机。

安装JAVA环境

1、把压缩格式的文件jdk-8u162-linux-x64.tar.gz下载到本地电脑,假设保存在“/home/linziyu/Downloads/”目录下。
2、在Linux命令行界面中,执行如下Shell命令(注意:当前登录用户名是hadoop):

cd /usr/lib
sudo mkdir jvm 
cd ~ 
cd Downloads  
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm  

3、JDK文件解压缩以后,可以执行如下命令到/usr/lib/jvm目录查看一下

cd /usr/lib/jvm
ls

4、在/usr/lib/jvm目录下有个jdk1.8.0_162目录。
下面继续执行如下命令,设置环境变量

cd ~
vim ~/.bashrc

5、安装完成后可以通过输入:java-version查看是否安装成功,如下图:在这里插入图片描述

Hadoop伪分布式配置

接下来需要进行hadoop伪分布式配置:
需要在hadoop配置文件夹 /usr/local/hadoop/etc/hadoop/ 中修改2个配置文件 core-site.xml 和 hdfs-site.xml。
用gedit打开 core-site.xml,在中间添加
配置,如下图:
在这里插入图片描述
用gedit打开配置文件: hdfs-site.xml ,操作如下:
在这里插入图片描述
配置完成后,执行 NameNode 的格式化:

cd /usr/local/hadoop
./bin/hdfs namenode -format

格式化后需要开启NameNode和DataNode守护进程

cd /usr/local/hadoop
./sbin/start-dfs.sh 

启动完成后,可以通过命令jps来判断是否成功,如果成功会列出如下进程:“NameNode”、“DataNode”、“SecondaryNameNode”
在这里插入图片描述

若出现SSH提示,输入yes即可。

成功启动后,可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件

hadoop伪分布式实例

由于伪分布式读取的是HDFS上面的数据,如果要使用HDFSÿ

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值