大数据处理架构Hadoop配置

最新推荐文章于 2024-09-07 12:52:57 发布

程序猿阿三

最新推荐文章于 2024-09-07 12:52:57 发布

阅读量3.7k

点赞数

分类专栏： Hadoop 文章标签：大数据 hadoop apache 架构

本文链接：https://blog.csdn.net/youbingchen/article/details/51707792

版权

Hadoop 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

title: 大数据处理架构Hadoop
date: 2016-06-02
tags: Hardoop

Hadoop简介

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台，为用户提供了系统底层细节透明的分布式基础架构
Hadoop是基于Java语言开发的，具有很好的跨平台特性，并且可以部署在廉价的计算机集群中（但是具体在应用层不一定只用java）
Hadoop的核心是分布式文件系统HDFS（Hadoop Distributed File System）和MapReduce
Hadoop被公认为行业大数据标准开源软件，在分布式环境下提供了海量数据的处理能力
几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务，如谷歌、雅虎、微软、思科、淘宝等，都支持Hadoop

hardoop的特性

高可靠性
高效性
高扩展性
高容错性
成本低
运行在linux平台上
支持多种编程语言

hadoop 安装(Ubuntu为例)

针对在单机的学习主要采用的是单机/伪分布式配置。

第一步（可选）可以创建一个新的用户

# 创建hadoop用户并使用/bin/bash作为shell
sudo useradd -m haddoop -s /bin/shell
# 设置密码
sudo passwd hadoop 
# 可为hadoop用户增加管理员权限
#  sudo adduser hadoop sudo

第二步(可选）更新源
Ubuntu可以在Ubuntu源列表获取最新的源。

# 备份系统自带的源
sudo cp /etc/apt/sources.list /etc/apt/sources.list_backup
# 用编辑器编辑(一定要选对版本)
vim /etc/apt/sources.list
# 执行刷新
sudo apt-get update

第三步安装SSH、配置SSH无密码登录
集群、单节点模式都需要用到SSH登录（类似远程登录）,Ubuntu默认安装了SSH client,此外还需要安装SSH server

sudo apt-get install openssh-server
# ssh安装后测试一下
ssh -l hadoop localhost
# 如果每次登录都要重新输入密码不方便的话，可以利用ssh-keygen生成密钥，并将密钥加入授权中
exit # 先退出
cd ~/.ssh
ssh-keygen -t rsa
cat ./id_rsa.pub >> ./authorized_keys

第四步（必须的）安装Java环境
java环境可选择Oracle的JDK，或是OpenJDK，这边直接通过命令安装OpenJDK7

sudo apt-get install openjdk-8-jre 
sudo apt-get install openjdk-8-jdk
# 安装完OpenJDK，找到相应的路径，这个路径就是用于配置
dpkg -L openjdk-8-jdk | grep '/bin/javac'
# 输出的结果，去除末尾的"/bin/javac",剩下的就是正确的路径，将这个路径写入到~/.bashrc
vim ~/.bashrc
# 在文件的末尾加入（注意=两边不能有空格）
export JAVA_HOME=JDK路径
# 让环境变量立即生效
source ~/.bashrc
# 测试一下java 是否成功
java -version

第五步（必须的）安装Hadoop2
Hadoop可以通过hadoop 下载,一般选择稳定的版本(stable)。建议选择下载编译好的(因为是在自己的电脑)，如果要应用现实的集群中可以选择源码进行编译

# 将Hadoop安装至/usr/local/中
sudo tar -zxvf hadoop-x.x.x.tar.gz -C /usr/local
cd /usr/local
sudo mv ./hadoop-x.xcd.x ./hadoop # 为了方便
sudo chown -R hadoop ./hadoop # 修改文件权限
cd /usr/local/hadoop
./bin/hadoop version #验证是否正确安装hadoop

第六步单机配置（非分布式）
到这一步只是单机配置，并不是分布式

cd /usr/local/hadoop
mkdir ./input
cp ./etc/hadoop/*.xml ./input # 将配置文件作为输入文件
./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep ./input ./output 'dfs[a-z.]+'
cat ./output/* # 查看运行结果

这里写图片描述
注意:Hadoop默认不会覆盖文件，因此再次运行实例提示会出错的，需要将./output文件删除
+ 第七步Hadoop伪分布配置
Hadoop 可以在单点上以分布式的方式运行，Hadoop进程以分离的Java进程运行，节点即作为NameNode也作为DataNode,同时读取HDFS的文件。
Hadoop的配置文件位于/usr/local/hadoop/etc/hadoop/中。伪分布式主要需要修改2个配置文件core-site.xml和hdfs-site.xml。Hadoop的配置文件是xml格式的，每个配置以声明property的name和value方式实现的。
在这之前先把Hadoop加入环境变量

   vim  ~/.bashrc
   # 添加以下内容
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
#　关闭 文件，用source命令使配置文件立马生效
source ~/.bashrc

主要步骤有：

修改配置文件:core-site.xml,hdfs-site.xml,mapred-site.xml
初始化文件系统hadoop namenode-format
启动所有进程start-all.sh

配置文件修改

core-site.xml文件修改

vim ./etc/hadoop/core-site.xml

这里写图片描述
修改成:

hdfs-site.xml文件修改

这里写图片描述

dfs.replication表示副本，伪分布设置为1
dfs.namenode.name.dir表示本地磁盘目录，是存储fsimage的地方
dfs.datanode.data.dir表示本地磁盘目录，HDFS数据存放block的地方

Hadoop配置文件说明

1.Hadoop 的运行方式是由配置文件决定的（运行 Hadoop 时会读取配置文件），因此如果需要从伪分布式模式切换回非分布式模式，需要删除 core-site.xml 中的配置项。
2.此外，伪分布式虽然只需要配置 fs.defaultFS 和 dfs.replication就可以运行（官方教程如此），不过若没有配置 hadoop.tmp.dir 参数，则默认使用的临时目录为 /tmp/hadoo-hadoop，而这个目录在重启时有可能被系统清理掉，导致必须重新执行format才行。所以我们进行了设置，同时也指定 dfs.namenode.name.dir和dfs.datanode.data.dir，否则在接下来的步骤中可能会出错。

执行NameNode的格式化

./bin/hdfs namenode -format # 若出现了successfullyu formatted“和”exittng with status 0“,则是成功，否则出现"Exitting with status1",则是出错。

开启NameNode和DataNode守护进程

./sbin/start-dfs.sh  # start-dfs.sh 是个完整的可执行文件。中间没有空格

1.这一步可能会出现JAVA_HOME没设置，这时候要在 /etc/hadoop/hadoop-env.sh添加 export JAVA_HOME 路径

2.也可能会出现启动 Hadoop 时提示 Could not resolve hostname，这个并不是ssh的问题，在~/.bashrc中添加两行

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native # 不要忘了 source ~/.bashrc

jps命令判断是否正常

这里写图片描述
+ 第八步运行Hadoop伪分布式实例
上面的单机模式，grep例子读取的是本地数据，伪分布式读取的则是 HDFS 上的数据。要使用 HDFS，首先需要在 HDFS中创建用户目录：

./bin/hdfs dfs -mkdir -p /user/hadoop

注意:

这里有三张shell 命令

./bin/hadoop fs
./bin/hadoop dfs
./hdfs dfs

说明:

hadoop fs适用于任何不同的系统，比如本地文件系统和HDFS文件系统
hadoop dfs只能适用于HDFS文件系统
hdfs dfs跟hadoop dfs的命令作用是一样的，也只能适用于HDFS文件系统

接下来将./etc/hadoop中的xml文件作为输入文件复制到分布式文件系统中，即将/usr/local/hadoop/etc/hadoop复制到分布式文件系统中的/user/hadoop/input中。我们使用的是hadoop用户,并且已创建用户目录/user/hadoop。因此在命令中就可以使用相对路径如:input,其对应的绝对路径就是/user/hadoop/input:

./bin/hdfs dfs -mkdir input
./bin/hdfs dfs -put ./etc/hadoop/*.xml input

复制完成之后，通过命令可以查看情况了

./bin/hdfs dfs -ls input

伪分布式运行 MapReduce作业的方式跟单机模式相同，区别在于伪分布式读取的是HDFS中的文件（可以将单机步骤中创建的本地 input 文件夹，输出结果output文件夹都删掉来验证这一点）。
查看结果

./bin/hdfs dfs -cat output/*

我们也可以将运行结果取回到本地：

./bin/hdfs dfs -get output ./output

Hadoop 运行程序时，输出目录不能存在，否则会提示错误 “org.apache.hadoop.mapred.FileAlreadyExistsException: Output directoryhdfs://localhost:9000/user/hadoop/output already exists” ，因此若要再次执行，需要执行如下命令删除 output 文件夹:

./bin/hdfs dfs -rm -r output

若要关闭 Hadoop，则运行

./sbin/stop-dfs.sh

注意:下次启动hadoop时候，无需NameNode的初始化，只需要./sbin/start-dfs.sh即可。
+ 第九步YARN的安装（可选）
因为伪分布式不启动YARN也可以的，一般不会影响程序执行
YARN 是从MapReduce中分离出来的，负责资源管理和任务调度。上述步骤只是Hadoop中的MapReduce环境，针对启动YARN步骤如下：
首先配置文件 mapred-site.xml

mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml

并添加内容
这里写图片描述
接下来修改yarn-site.xml

然后就可以启动 YARN了（需要先执行过./sbin/start-dfs.sh

./sbin/start-yarn.sh #启动yarn
./sbin/mr-jobhistory-daemon.sh start historyserver #开启历史服务器

开启后通过 jps 查看，可以看到多了 NodeManager 和 ResourceManager 两个后台进程。

同样的，关闭 YARN 的脚本如下：

./sbin/stop-yarn.sh #启动yarn
./sbin/mr-jobhistory-daemon.sh stop historyserver

最后一步搭建真正Hadoop集群
Hadoop集群搭建教程

程序猿阿三

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录