Hadoop的伪分布式安装

环境信息

1. 硬件:

内存ddr3 4G及以上的x86架构主机一部
系统环境:windows

2. 软件:

运行vmware或者virtualbox

3. 其他: 无

步骤与方法

1. 安装虚拟机 (VituralBox )

下载VirtualBox并安装。
首先在官网下载 Oracle VM VirtualBox,选择VirtualBox软件版本,选择对应主机(电脑系统是什么)下载高版本VirtualBox-6.0.24)
点击即开始下载VirtualBox-5.2.20-125813-Win.exe
双击运行,进入欢迎界面安装向导。
下一步,进入自定安装(功能选择)。点击浏览(修改安装位置)。
下一步,进入自定安装(默认选项)。
下一步,警告:中断网络连接。
点击是,安装,等待进度条。
Windows提示询问用户,安装。等待安装完成,进入安装完成界面,默认勾选会自动打开应用。
完成。
设置VirtualBox存储文件夹
存储虚拟主机的所有文件(默认在c盘)
选择管理,全局设定,常规,设置文件存储位置。

创建虚拟机
新建,进入虚拟电脑名称和系统类型。名称(hadoop),系统类型(linux),版本(Ubuntu64bits)。
下一步,进入内存大小。将内存稍微改大一点,4GB+,虚拟机运行快。
下一步,进入虚拟硬盘。默认选择现在创建虚拟硬盘。
创建,进入虚拟硬盘文件类型。默认选择VDI。
下一步,进入存储在物理硬盘上。默认选择动态分配。
下一步,进入文件位置和文件大小。设置文件存储位置(默认在前面virtualbox存储文件夹下)和文件大小(虚拟机最大容量,上限)。
创建。
在这里插入图片描述

2. 在虚拟机安装Linux系统 (Ubuntu 或 Centos7)

安装之前先熟悉一下linux系统。由MNIX改进,免费开源。
特点:
(1) 完全免费,可修改源代码。
(2) 多用户,系统资源可以被多个用户使用,用户间不影响。
(3) 多任务,多个程序同时独立运行。
(4) 良好的用户界面,字符界面(指令操作),图形界面(菜单窗口操作)。
(5) 多平台,x86处理平台,嵌入式操作系统,掌上电脑、游戏机上都可以运行,多处理器技术。
(6) 设备独立性,一切都是文件(命令,进程,操作系统,软件,硬件),软件都有用途。
(7) 丰富的网络功能,通信和网络优越。
(8) 完善的数据库开发平台,(数据库Oracle,MySQL),(开发平台c/c++,python,java,php),(图形界面Qt,gtk)。
(9) 安全性,文件有不同的属性,系统文件一般不可以更改。
(10)可移植性,在不同平台上,运行是相同的。
组成:
(1) 内核:操作系统核心,存储管理,CPU,进程管理,设备管理和驱动,网络通信。
(2) shell:用户界面,接收输入命令。
(3) 文件系统:磁盘文件的输入和输出。
(4) 应用程序:文本编辑器,办公软件,数据库。
文件系统的类型
(1) 普通文件。
纯文本文件,二进制文件,系统可执行的文件格式,数据格式文件,特定格式。
(2) 目录文件,相当于路径。
(3) 连接文件,相当于快捷方式。
(4) 设备与设备文件,与设备存储有关:块设备文件,硬盘。字符设备文件,鼠标,键盘。
(5) 套接字,网络连接,实现数据通信。
(6) 管道,保证多个文件不会出错。
文件系统的结构:(树状结构)。
在这里插入图片描述

/根目录。
/bin存放普通账户linux命令。
/boot存放开机启动的文件。
/dev存放设备文件(硬盘,分区,USB)。
/etc存放系统配置文件(密码,服务的起始文件)。
/home存放普通账户的目录。
/root存放管理员的目录。
/lost+found存放错误的片段。
/lib存放开机的库函数。
/sbin存放管理员的linux命令。
/tmp存放临时文件。
/usr存放用户二进制文件,头文件,库文件,程序,软件。
/bin存放应用程序。
/include存放头文件。
/sthio.h
/fentl.h
/sys
/sbin存放root用户管理程序。
/mnt存放临时搭载的设备。
/var存放变动的文件,缓存文件、日志文件。

安装Ubuntu系统

使用linux的Ubuntu版本,开源免费的操作系统,界面友好,适合上手。
版本下载地址:下载 Ubuntu 桌面|下载|乌班图。
在这里插入图片描述

点击下载(download),可能需要迅雷软件解压(.torrent)文件,文件名为ubuntu-20.04-desktop-amd64.iso的镜像文件。
设置虚拟光盘文件
点击设置,选择存储,点击没有盘片,在属性下设置分配光驱(即选择下载的Ubuntu.iso镜像文件),点击ok。
在这里插入图片描述

点击启动,启动虚拟机(自动寻找Ubuntu系统镜像),等待。
进入选择语言界面,选择中文(简体),点击右边的安装Ubuntu。
进入键盘布局,默认选择汉语(chinese),点击继续。
进入更新与第三方软件,默认勾选正常安装,勾选无线硬件、第三方软件,点击继续。
在这里插入图片描述

进入安装类型,默认选择清除整个磁盘并安装Ubuntu,点击现在安装。
弹出提示,将改动写入磁盘吗?点击继续。
进入虚拟机所在地,选择你的地点(可以输入pei-chi搜索),点击继续。
在这里插入图片描述

进入设置用户信息界面,设置姓名、虚拟计算机名、用户名、密码,选择自动登录(以后启动就不用输密码了),点击继续。
在这里插入图片描述

开始自动安装系统,等待。
弹出提示,点击重新启动(以后启动时,先选中虚拟机,再点击启动),进入Ubuntu桌面。
进入了欢迎界面,跳过完成就好。
关机(重启)在右上角下拉菜单中点击关机,开机选中虚拟机点击启动。
接下来就是一些linux系统的设置。
创建终端快捷方式,点击左下角显示应用程序,搜索terminal,拖动到左侧即可。
快捷方式打开;快捷键打开<ctrl + alt + t>;右键,选择terminal打开。
更改终端背景颜色,在终端右键,选择配置文件首选项,选择颜色,取消使用系统主题中的颜色,设置自己的终端。关闭即完成配置。
设置共享剪贴板
便于windows和linux之间赋值粘贴。方便操作。
左上角点击设备,选择安装增强功能。
弹出提示,选择运行,输入密码,点击认证。
系统自动打开终端,执行安装,最后出现一行,press return to close this window,按任意键关闭终端,安装完成。
点击设备,选择共享粘贴板,选择双向。
完成配置,需要重启生效。
设置共享文件夹
便于windows和linux之间文件共享。方便文件传输。
点击设备,选择共享文件夹,点击共享文件夹。
进入hadoop设置界面,选择共享文件夹,点击右边的第一个图标添加共享文件夹。
进入添加共享文件夹界面,选择你想要的共享文件夹,勾选自动挂载,勾选固定分配,点击ok,点击ok。
完成设置,需要重启生效。

3. 安装 Hadoop 并配置伪分布式模式

(1)安装jdk

windows下载jdk,Java Downloads | Oracle。
a) 官网下载需要注册账户,并到邮箱确认邮件,然后返回下载(下载1.8版本原因:教材是8u181版,维护时间长久)。
在这里插入图片描述

b) 下载了jdk—.tar.gz安装包,放到共享文件夹。
c) 复制到主目录的文件夹,该文件夹路径下打开终端。
d) 解压(安装),产生jdk文件夹。
tar -zxvf jdk—.tar.gz
e) 设置环境变量,打开配置文件(vi和gedit的区别?一个是编辑器,一个是记事本,两个都可以,用法不同,新手用gedit)。
(gedit /etc/profile这条只能访问、查看;用下面的命令,管理员可修改(输入密码时看不见,输入后回车))。
sudo gedit /etc/profile
f) 进入编辑界面,特定位置输入信息,保存关闭文件。
(vi编辑界面命令:I:编辑状态;delete:修改状态;esc:退出编辑状态;:wq:保存退出;命令完回车)。
export JAVA_HOME=/home/linlin/jdk/jdk—
export JRE_HOME= J A V A H O M E / j r e e x p o r t C L A S S P A T H = . : {JAVA_HOME}/jre export CLASSPATH=.: JAVAHOME/jreexportCLASSPATH=.:{JAVA_HOME}/lib: J R E H O M E / l i b e x p o r t P A T H = {JRE_HOME}/lib export PATH= JREHOME/libexportPATH={JAVA_HOME}/bin:$PATH
在这里插入图片描述

g) 重新加载配置文件,(命令提示符会变颜色)。
source /etc/profile
h) 验证jdk。
java -version
javac
在这里插入图片描述

i) 出现版本信息,安装成功。

(2)hadoop的环境配置

修改配置文件
a) 查看本机ip地址,有异常使用提示语句下载安装网络工具。
ifconfig
sudo apt install net-tools
b) 查看本机主机名。
hostname
在这里插入图片描述

c) 写入配置文件/etc/hosts,打开文件输入命令,修改ip地址,保存关闭。
sudo gedit /etc/hosts
在这里插入图片描述

设置环境变量
a) 设置环境变量,永久设置(需要修改~/.bashre),打开文件
sudo gedit ~/.bashrc。
b) 进入编辑界面,输入信息,保存关闭。
(其中的信息:jdk安装路径;hadoop安装路径;路径X2;其他环境变量X4(设为 H A D O O P H O M E );链接库设置 X 3 )。 e x p o r t J A V A H O M E = / h o m e / l i n l i n / j d k / j d k − − − e x p o r t H A D O O P H O M E = / h o m e / l i n l i n / h a d o o p − − − e x p o r t P A T H = HADOOP_HOME);链接库设置X3)。 export JAVA_HOME=/home/linlin/jdk/jdk--- export HADOOP_HOME=/home/linlin/hadoop--- export PATH= HADOOPHOME);链接库设置X3)。exportJAVAHOME=/home/linlin/jdk/jdkexportHADOOPHOME=/home/linlin/hadoopexportPATH=PATH: H A D O O P H O M E / b i n e x p o r t P A T H = HADOOP_HOME/bin export PATH= HADOOPHOME/binexportPATH=PATH: H A D O O P H O M E / s b i n e x p o r t H A D O O P M A P R E D H O M E = HADOOP_HOME/sbin export HADOOP_MAPRED_HOME= HADOOPHOME/sbinexportHADOOPMAPREDHOME=HADOOP_HOME
export HADOOP_COMMON_HOME= H A D O O P H O M E e x p o r t H A D O O P H D F S H O M E = HADOOP_HOME export HADOOP_HDFS_HOME= HADOOPHOMEexportHADOOPHDFSHOME=HADOOP_HOME
export YARN_HOME= H A D O O P H O M E e x p o r t H A D O O P C O M M O M L I B N A T I V E D I R = HADOOP_HOME export HADOOP_COMMOM_LIB_NATIVE_DIR= HADOOPHOMEexportHADOOPCOMMOMLIBNATIVEDIR=HADOOP_HOME/lib/native
export HADOOP_OPTS=“-Djava.library.path= H A D O O P H O M E / l i b : HADOOP_HOME/lib: HADOOPHOME/lib:HADOOP_COMMON_LIB_NATIVE_DIR”
export JAVA_LIBRARY_PATH= H A D O O P H O M E / l i b / n a t i v e : HADOOP_HOME/lib/native: HADOOPHOME/lib/native:JAVA_LIBRARY_PATH
c) 重新加载配置文件。
source ~/.bashrc
d) 验证配置。
hadoop version
e) 出现版本信息,配置成功。
在这里插入图片描述

修改hadoop配置文件
一共有六个文件,注意打开终端的位置(相对路径、绝对路径),在/home/linlin/hadoop路径下打开终端。
hadoop-env.sh
a) 终端打开文件,输入命令。
sudo gedit ./hadoop—/etc/hadoop/hadoop-env.sh
b) 将(# export JAVA_HOME=…)改为jdk目录:(ctrl + f查找)
export JAVA_HOME=/home/linlin/jdk/jdk—。
c) 保存关闭。
在这里插入图片描述

core-site.xml
a) 终端打开文件,输入命令。
sudo gedit ./hadoop—/etc/hadoop/core-site.xml
b) 设置HDFS默认名称,地址10.0.2.15,端口号9000(配置HDFS的主节点;配置hadoop运行产生文件的存储目录)。

fs.defaultFS
hdfs://{ip地址}:{端口号}


hadoop.tmp.dir
/home/linlin/hadoop/hadoop—/dataNode_1_dir

c) 保存关闭。
在这里插入图片描述

yarn-site.xml
a) 终端打开文件,输入命令。
sudo gedit ./hadoop—/etc/hadoop/yarn-site.xml
b) 设置站点(配置resourcemanager的地址;配置nodemanager执行任务的方式shuffle)。

yarn.resourcemanager.hostname
{ip地址}


yarn.nodemanager.aux-services
mapreduce_shuffle

c) 保存关闭。
在这里插入图片描述

mapred-site.xml
a) 终端打开文件,输入命令。
sudo gedit ./hadoop—/etc/hadoop/mapred-site.xml
b) 设置mapreduce的框架为YARN。

mapreduce.framework.name
yarn

c) 保存关闭。
在这里插入图片描述

hdfs-site.xml
a)终端打开文件,输入命令。
sudo gedit ./hadoop—/etc/hadoop/hdfs-site.xml
b)修改hdfs默认块的副本属性,将副本数改为1,设置namenode和datenode存储位置,设置IP地址10.0.2.15、端口号50070(伪分布式只有一个数据节点)。

dfs.replication
1


dfs.namenode.name.dir
file:///home/linlin/hadoop/hadoop—/hadoop_data/hdfs/namenode


dfs.datanode.data.dir
file:///home/linlin/hadoop/hadoop—/hadoop_data/hdfs/datanode


dfs.http.address
{IP地址}:{端口号}

c)保存关闭。
在这里插入图片描述

修改系统/etc/profile文件。
a) 终端打开文件,输入命令。
sudo gedit /etc/profile
b) 添加环境变量,hadoop的路径。
export HADOOP_HOME=/home/linlin/hadoop/hadoop—
c) 修改PATH。
export PATH= J A V A H O M E / b i n : {JAVA_HOME}/bin: JAVAHOME/bin:PATH: H A D O O P H O M E / b i n : HADOOP_HOME/bin: HADOOPHOME/bin:HADOOP_HOME/sbin
d) 保存关闭。
在这里插入图片描述

创建并格式化系统文件

前面的配置文件中写了这三个目录(不存在),因此需要创建目录。主目录下打开终端(/home/linlin)。
namenode存储路径file:///home/linlin/hadoop/hadoop—/hadoop_data/hdfs/namenode。
datanode存储路径file:///home/linlin/hadoop/hadoop—/hadoop_data/hdfs/datanode。
hadoop运行产生文件的存储目录/home/linlin/hadoop/hadoop—/dataNode_1_dir/datanode。
创建目录
mkdir -p ./hadoop/hadoop—/hadoop_data/hdfs/namenode
mkdir -p ./hadoop/hadoop—/hadoop_data/hdfs/datanode
mkdir -p ./hadoop/hadoop—/dataNode_1_dir/datanode
HDFS格式化(将namenode中的数据格式化)输入y
hdfs namenode -format
在这里插入图片描述

出现successful表示成功
在这里插入图片描述

启动hadoop
启动hadoop命令(分为启动HDFS命令start.dfs.sh和启动YARN命令start.yarn.sh)。
start-all.sh
检验hadoop的全部守护进程,(可能提示安装openjdk—headless)。
jps
出现五个进程:
DataNode;SecondaryNameNode;NameNode;NodeManager;ResourceManger
关闭hadoop命令(分为关闭HDFS命令stop.dfs.sh和关闭YARN命令stop.yarn.sh)。
stop-all.sh
在这里插入图片描述

查看页面
先格式化dhfs的节点信息,启动运行hadoop,使用Ubuntu自带火狐浏览器输入网址。
在这里插入图片描述
在地址栏输入{IP地址}:{端口号},进入HDFS Web界面,查看活动节点。
在地址栏输入{IP地址}:8088,进入YARN Web界面,选择nodes连接,显示当前运行的节点(伪分布式只有一个节点)。
在这里插入图片描述

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程子的小段

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值