文章目录
安装JDk、Hadoop以及测试hadoop本地运行模式
虚拟机环境准备。
修改克隆虚拟机的静态IP
修改主机名
关闭防火墙
创建atguigu用户
配置atguigu用户具有root权限
通过
SecureCRT
连接服务器,使用atguigu角色进行以下操作:# 在/opt目录下 创建module,software两个文件夹 sudo mkdir module sudo mkdir software # 修改module、software文件夹的所有者 sudo chown atguigu:atguigu module/ software/
安装JDK和Hadoop
1. 安装前备工作
# 查看是否已经安装Jdk
rpm -qa | grep java
# 如果安装的版本低于1.7,卸载该JDK
yum -y remove tzdata-java-2016c-1.el6.noarch
2.上传安装包、解压、配置环境变量
Alt + P
—>cd /opt/module
# 解压这两个压缩包 tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/ tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/
解压后的目录
# 如果解压后还是root root即所有者所在组都是root,通过以下操作把其都改成atguigu,为了方便后面的操作 sudo chown atguigu:atguigu module/ -R
配置环境变量
sudo vim /etc/profile
#将JAVA_HOME和HADOOP_HOME内容拷贝到profile最西面。
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
##HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
# 更新配置文件
source /etc/profile
查看是否安装和配置好
# 查看java版本,以及环境变量是否配好
java -version
# 查看hadoop版本,以及环境变量是否配好
hadoop version
Hadoop目录结构☆
bin目录:
存放对Hadoop相关服务(HDFS,YARN
)进行操作的脚本etc目录:
Hadoop的配置文件目录,存放Hadoop的配置文件lib目录:
存放Hadoop的本地库(对数据进行压缩解压缩功能)sbin目录:
存放启动或停止Hadoop相关服务的脚本share目录:
存放Hadoop的依赖jar包、文档、和官方案例
Hadoop运行模式
Hadoop运行模式包括:
本地模式
、伪分布式模式
以及完全分布式模式
。其中完全分布式模式是开发重点,前面两种可以完成入门过度。Hadoop官方网站:http://hadoop.apache.org/
1. Hadoop本地运行模式
官方Grep案例
# 创建在hadoop-2.7.2文件下面创建一个input文件夹
mkdir input
# 将Hadoop的xml配置文件复制到input
cp ./etc/hadoop/*.xml input
#执行share目录下的MapReduce程序
#执行MapReduce程序之前output文件夹一定不能存在,否则会报错
#org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/opt/module/hadoop-2.7.2/output already exists
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'
查看执行是否成功:
进入到output文件中_SUCCESS这个文件标示这执行成功;
# 查看程序运行结果 cat part-r-00000
官方WordCount案例
# 创建在hadoop-2.7.2文件下面创建一个wcinput文件夹
mkdir wcinput
# 在wcinput文件下创建一个wc.input文件
cd wcinput
touch wc.input
# 编辑wc.input文件
vim wc.input
#将下面内容复制到wc.input中
hadoop yarn
hadoop mapreduce
atguigu
atguigu
#保存退出
:wq
#回到Hadoop目录
cd /opt/module/hadoop-2.7.2/
#执行WordCount案例
#与上个案例相同,程序运行前wcoutput不能存在,否则会报错
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput
查看运行结果: