Hadoop的简介及伪分布式安装

最新推荐文章于 2020-09-17 09:19:41 发布

小布爱篮球

最新推荐文章于 2020-09-17 09:19:41 发布

阅读量208

点赞数

分类专栏：大数据基础文章标签： Hadoop简介以及伪分布式安装

本文链接：https://blog.csdn.net/weixin_43854923/article/details/84944383

版权

大数据基础专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一、Hadoop简介
是Apache的顶级项目，是一个可靠的、可扩展的、支持分布式计算的开源项目。
起源
创始人：Doug Cutting 和Mike
2004 Doug和Mike创建了Nutch - 利用通用爬虫爬取了互联网上的所有数据，获取了10亿个网页数据 - 10亿个网页数据是非结构化数据，就意味着这些数据是无法存储到数据库中
在这里插入图片描述
Doug发现了Google在2003年发表的一篇论文:《Google File System》,设计了NDFS - Nutch Distributed File System解决了Nutch的存储问题
Doug发现了Google在2003年发表的另一篇论文：《Google MapReduce》，这篇论文讲述了Google分布式系统的中的计算问题，Doug根据这篇论文设计了MapReduce
后来，从Nutch0.8版本开始，就将NDFS和MapReduce模块独立出来成为了Hadoop，并且将NDFS更名为HDFS
Doug带着Hadoop去了Yahoo，在Yahoo期间，设计了Pig, Hive, HBase等框架
Yahoo将Hadoop等框架贡献给了Apache
Hadoop：Doug在命名的时候希望用一些无意义的单词，就是为了防止重名

Hadoop的版本
1. Hadoop1.0：HDFS和MapReduce
2. Hadoop2.0：完全重构的一套系统，不兼容1.0。包含了HDFS、MapReduce和Yarn
3. Hadoop3.0：包含了HDFS、MapReduce、Yarn以及Ozone
Hadoop的模块
1. Hadoop Common：基本模块
2. Hadoop Distributed File System：HDFS。进行数据的分布式存储
3. Hadoop YARN：进行任务调度和节点资源管理
4. Hadoop MapReduce：基于Yarn对海量数据进行并行处理
5. Hadoop Ozone：基于HDFS进行对象的存储

二、Hadoop伪分布式安装
1. 关闭防火墙 service iptables stop
2. 修改主机名。在Hadoop集群中，主机名中不允许出现_以及-，如果出现会导致找不到这台主机。
vim /etc/sysnconfig/network
更改HOSTNAME，例如
HOSTNAME=hadoop01
source /etc/sysconfig/network
3. 更改hosts文件
vim /etc/hosts
添加 ip 主机名，例如
192.168.60.132 hadoop01
4. 配置免密互通
ssh-keygen
ssh-copy-id 用户名@主机地址，例如
ssh-copy-id root@hadoop01
5. 重启计算机 reboot
6. 安装jdk
7. 解压Hadoop的安装包 tar -xvf hadoop-2.7.1_64bit.tar.gz
8. 进入安装目录下的子目录etc下的子目录hadoop cd hadoop-2.7.1/etc/hadoop
9. 编辑hadoop-env.sh vim hadoop-env.sh
10. 将JAVA_HOME替换为具体的jdk安装目录，例如
export JAVA_HOME=/home/preSoftware/jdk1.8
11. 将HADOOP_CONF_DIR替换为具体的Hadoop的配置目录。例如
export HADOOP_CONF_DIR=/home/software/hadoop-2.7.1/etc/hadoop
12. 重新生效 source hadoop-env.sh
13. 编辑core-site.xml vim core-site.xml
14. 添加内容

<!-- 指定HDFS中的管理节点 -->
	<property>
	    <name>fs.defaultFS</name>
	    <value>hdfs://hadoop01:9000</value>
	</property>
	<!-- 指定存储位置 -->
	<property>
	    <name>hadoop.tmp.dir</name>
	    <value>/home/software/hadoop-2.7.1/tmp</value>
	</property>

编辑hdfs-site.xml vim hdfs-site.xml

添加内容

<!-- 在伪分布式中，复本数量必须为1 -->
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

将mapred-site.xml.template复制为mapred-site.xml cp mapred-site.xml.template mapred-site.xml
编辑mapred-site.xml vim mapred-site.xml

添加内容：

<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

配置yarn-site.xml vim yarn-site.xml
添加内容

 <property>
        	    <name>yarn.resourcemanager.hostname</name>
        	    <value>hadoop01</value>
        	</property>
        	<property>
        	    <name>yarn.nodemanager.aux-services</name>
        	    <value>mapreduce_shuffle</value>
        	</property>

Hadoop本身是主从结构，配置slaves指定从节点
vim slaves
添加从节点的地址
配置环境变量
vim /etc/profile
添加：
export HADOOP_HOME=/home/software/hadoop-2.7.1
export PATH= $P A T H :$ HADOOP_HOME/bin:$HADOOP_HOME/sbin

重新生效
source /etc/profile
格式化数据目录 hadoop namenode -format
启动hadoop start-all.sh
如果启动成功，可以在浏览器中输入地址:50070访问hadoop的页面