在Ubuntu中搭建Hadoop到MapReduce文件上传

最新推荐文章于 2024-03-14 14:15:32 发布

Ｈｊｂ

最新推荐文章于 2024-03-14 14:15:32 发布

阅读量638

点赞数 1

文章标签： hadoop 大数据 linux

本文链接：https://blog.csdn.net/weixin_53910050/article/details/111603624

版权

本文详细介绍了如何在Ubuntu上利用VirtualBox搭建Hadoop环境，包括创建Hadoop用户、安装更新、配置Hadoop、设置SSH登录、安装JAVA、配置Hadoop-Eclipse-Plugin，并通过Eclipse运行MapReduce程序进行文件字数统计。

摘要由CSDN通过智能技术生成

#在Ubuntu中搭建Hadoop到MapReduce文件上传

在Windows中使用VirtualBox安装Ubuntu

我们将实现在Windows操作系统下使用开源虚拟机软件VirtualBox安装Ubuntu，版本选择UbuntuKylin-14.04.6：

设置好cpu的虚拟环境，打开VirtualBox，点击“创建”按钮，创建一个虚拟机，根据自己的需求合理分配电脑资源，建议内存空间选择8GB；
载入下载好的系统镜像到虚拟机并启动，按步骤安装后进行磁盘分区，选择“清除整个磁盘并安装Ubuntu”；
进入系统后进行系统分辨率、时区、语言等基础设置；
设置用户名和密码；
出现不能联网的情况，切换当前网络模式到桥接模式；

创建Hadoop用户

如果安装 Ubuntu 的时候不是用的 “hadoop” 用户，那么需要增加一个名为 hadoop 的用户，打开终端窗口，输入命令创建新用户

sudo useradd -m hadoop -s /bin/bash

继续使用命令设置密码

sudo passwd hadoop

更新apt

Hadoop安装完成后，更新apt以便进行后续的软件安装。通过按ctrl+alt+t打开终端窗口，执行命令：sudo apt-get update 输入密码后可开始更新

Hadoop的环境搭建和配置过程

1、准备好两个文件：hadoop-2.10.0.tar.gz和jdk-8u162-linux-x64.tar.gz。
2、在自己的电脑上安装FileZilla，以便将上述两个文件上传到Ubuntu中。

SSH登录权限设置

集群、单节点模式都需要用到 SSH 登陆（类似于远程登陆，你可以登录某台 Linux 主机，并且在上面运行命令），Ubuntu 默认已安装了 SSH client，此外还需要安装 SSH server：

sudo apt-get install openssh-server

安装完毕后可以输入：ssh localhost登录到本机。

安装JAVA环境

1、把压缩格式的文件jdk-8u162-linux-x64.tar.gz下载到本地电脑，假设保存在“/home/linziyu/Downloads/”目录下。
2、在Linux命令行界面中，执行如下Shell命令（注意：当前登录用户名是hadoop）：

cd /usr/lib
sudo mkdir jvm 
cd ~ 
cd Downloads  
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm

3、JDK文件解压缩以后，可以执行如下命令到/usr/lib/jvm目录查看一下

cd /usr/lib/jvm
ls

4、在/usr/lib/jvm目录下有个jdk1.8.0_162目录。
下面继续执行如下命令，设置环境变量

cd ~
vim ~/.bashrc

5、安装完成后可以通过输入:java-version查看是否安装成功，如下图：在这里插入图片描述

Hadoop伪分布式配置

接下来需要进行hadoop伪分布式配置：
需要在hadoop配置文件夹 /usr/local/hadoop/etc/hadoop/ 中修改2个配置文件 core-site.xml 和 hdfs-site.xml。
用gedit打开 core-site.xml，在中间添加
配置，如下图：
在这里插入图片描述
用gedit打开配置文件： hdfs-site.xml ，操作如下：

配置完成后，执行 NameNode 的格式化:

cd /usr/local/hadoop
./bin/hdfs namenode -format

格式化后需要开启NameNode和DataNode守护进程

cd /usr/local/hadoop
./sbin/start-dfs.sh

启动完成后，可以通过命令jps来判断是否成功，如果成功会列出如下进程：“NameNode”、“DataNode”、“SecondaryNameNode”
在这里插入图片描述

若出现SSH提示，输入yes即可。

成功启动后，可以访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息，还可以在线查看 HDFS 中的文件

hadoop伪分布式实例

由于伪分布式读取的是HDFS上面的数据，如果要使用HDFSÿ

最低0.47元/天解锁文章

Ｈｊｂ

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫