hadoop伪分布式安装(ubuntu16.04)
hadoop伪分布式简单就地说hadoop程序运行在一台计算机上,除此外和完全分布式一样。
安装步骤
网络配置参考https://blog.csdn.net/weiyang_tang/article/details/103795664
创建用户hadoop
创建用户:
sudo useradd -m hadoop -s /bin/bash
设置密码,可简单设置为 hadoop,按提示输入两次密码:
sudo passwd hadoop
hadoop 用户增加管理员权限,方便部署:
sudo adduser hadoop sudo
注销当前用户(在右上角),在登陆界面使用hadoop用户进行登陆
安装JDK,配置环境变量
更新软件列表
sudo apt-get update
安装openjdk-8-jdk
sudo apt-get install openjdk-8-jdk
查看Java版本,如下:
java -version
查看openjdk安装路径
update-alternatives --config java
安装路径为/usr/lib/jvm/java-8-openjdk-amd64/
配置JAVA_HOME,在~/.bashrc文件
sudo vim ~/.bashrc
在~/.bashrc 写入
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
重新更新配置文件
source ~/.bashrc
测试一下
echo $JAVA_HOME
输出的路径和jdk路径是否一致
安装hadoop,配置环境变量
hadoop下载路径Index of /apache/hadoop/common或者Index of /apache/hadoop/common
sudo mkdir /opt/module/
sudo wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz
cd /opt/module/
tar -zvxf hadoop-2.9.2.tar.gz
配置hadoop的环境变量到~/.bashrc
export HADOOP_PATH=/opt/module/hadoop-2.9.2
export PATH=$PATH:$HADOOP_PATH/bin:$HADOOP_PATH/sbin
更新配置文件
source ~/.bashrc
测试环境变量是否正确
hadoop version
如果出现下面结果,环境变量配置成功
Hadoop 2.9.2
Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 826afbeae31ca687bc2f8471dc841b66ed2c6704
Compiled by ajisaka on 2018-11-13T12:42Z
Compiled with protoc 2.5.0
From source with checksum 3a9939967262218aa556c684d107985
This command was run using /opt/module/hadoop-2.9.2/share/hadoop/common/hadoop-common-2.9.2.jar
修改hadoop的配置文件
跳转到/opt/module/hadoop-2.9.2/etc/hadoop
cd /opt/module/hadoop-2.9.2/etc/hadoop
hadoop-env.sh 配置JDK的安装路径:
echo $JAVA_HOME #JDK位置
sudo vim hadoop-env.sh
在文件首部添加
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 #根据上面jdk的位置
配置core-site.xml,在<configuration></configuration>
之间填入,hostname修改成自己的虚拟主机的
<!-- 指定HDFS中NameNode的地址 hadoop101根据你自己的hostname修改 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop101:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.9.2/data/tmp</value>
</property>
配置:hdfs-site.xml,在<configuration></configuration>
之间填入
<!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
启动集群
格式化NameNode(第一次启动时格式化,以后就不要总格式化)
hdfs namenode -format
启动NameNode
hadoop-daemon.sh start namenode
启动DataNode
hadoop-daemon.sh start datanode
(3)查看集群
(a)查看是否启动成功
jps
如果DataNode和NameNode都有则配置成功
注意:jps是JDK中的命令,不是Linux命令。不安装JDK不能使用jps
(b)web端查看HDFS文件系统
http://localhost:50070/dfshealth.html#tab-overview