Hadoop的简介及伪分布式安装

一、Hadoop简介
是Apache的顶级项目,是一个可靠的、可扩展的、支持分布式计算的开源项目。
起源
创始人:Doug Cutting 和Mike
2004 Doug和Mike创建了Nutch - 利用通用爬虫爬取了互联网上的所有数据,获取了10亿个网页数据 - 10亿个网页数据是非结构化数据,就意味着这些数据是无法存储到数据库中
在这里插入图片描述
Doug发现了Google在2003年发表的一篇论文:《Google File System》,设计了NDFS - Nutch Distributed File System解决了Nutch的存储问题
Doug发现了Google在2003年发表的另一篇论文:《Google MapReduce》,这篇论文讲述了Google分布式系统的中的计算问题,Doug根据这篇论文设计了MapReduce
后来,从Nutch0.8版本开始,就将NDFS和MapReduce模块独立出来成为了Hadoop,并且将NDFS更名为HDFS
Doug带着Hadoop去了Yahoo,在Yahoo期间,设计了Pig, Hive, HBase等框架
Yahoo将Hadoop等框架贡献给了Apache
Hadoop:Doug在命名的时候希望用一些无意义的单词,就是为了防止重名

Hadoop的版本
1. Hadoop1.0:HDFS和MapReduce
2. Hadoop2.0:完全重构的一套系统,不兼容1.0。包含了HDFS、MapReduce和Yarn
3. Hadoop3.0:包含了HDFS、MapReduce、Yarn以及Ozone
Hadoop的模块
1. Hadoop Common:基本模块
2. Hadoop Distributed File System:HDFS。进行数据的分布式存储
3. Hadoop YARN:进行任务调度和节点资源管理
4. Hadoop MapReduce:基于Yarn对海量数据进行并行处理
5. Hadoop Ozone:基于HDFS进行对象的存储

二、Hadoop伪分布式安装
1. 关闭防火墙 service iptables stop
2. 修改主机名。在Hadoop集群中,主机名中不允许出现_以及-,如果出现会导致找不到这台主机。
vim /etc/sysnconfig/network
更改HOSTNAME,例如
HOSTNAME=hadoop01
source /etc/sysconfig/network
3. 更改hosts文件
vim /etc/hosts
添加 ip 主机名 ,例如
192.168.60.132 hadoop01
4. 配置免密互通
ssh-keygen
ssh-copy-id 用户名@主机地址,例如
ssh-copy-id root@hadoop01
5. 重启计算机 reboot
6. 安装jdk
7. 解压Hadoop的安装包 tar -xvf hadoop-2.7.1_64bit.tar.gz
8. 进入安装目录下的子目录etc下的子目录hadoop cd hadoop-2.7.1/etc/hadoop
9. 编辑hadoop-env.sh vim hadoop-env.sh
10. 将JAVA_HOME替换为具体的jdk安装目录, 例如
export JAVA_HOME=/home/preSoftware/jdk1.8
11. 将HADOOP_CONF_DIR替换为具体的Hadoop的配置目录。例如
export HADOOP_CONF_DIR=/home/software/hadoop-2.7.1/etc/hadoop
12. 重新生效 source hadoop-env.sh
13. 编辑core-site.xml vim core-site.xml
14. 添加内容

<!-- 指定HDFS中的管理节点 -->
	<property>
	    <name>fs.defaultFS</name>
	    <value>hdfs://hadoop01:9000</value>
	</property>
	<!-- 指定存储位置 -->
	<property>
	    <name>hadoop.tmp.dir</name>
	    <value>/home/software/hadoop-2.7.1/tmp</value>
	</property> 
  1. 编辑hdfs-site.xml vim hdfs-site.xml

  2. 添加内容

    <!-- 在伪分布式中,复本数量必须为1 -->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    
  3. 将mapred-site.xml.template复制为mapred-site.xml cp mapred-site.xml.template mapred-site.xml

  4. 编辑mapred-site.xml vim mapred-site.xml

  5. 添加内容:

    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    
  6. 配置yarn-site.xml vim yarn-site.xml

  7. 添加内容

 <property>
        	    <name>yarn.resourcemanager.hostname</name>
        	    <value>hadoop01</value>
        	</property>
        	<property>
        	    <name>yarn.nodemanager.aux-services</name>
        	    <value>mapreduce_shuffle</value>
        	</property>
  1. Hadoop本身是主从结构,配置slaves指定从节点
    vim slaves
    添加从节点的地址

  2. 配置环境变量
    vim /etc/profile
    添加:
    export HADOOP_HOME=/home/software/hadoop-2.7.1
    export PATH= P A T H : PATH: PATH:HADOOP_HOME/bin:$HADOOP_HOME/sbin

    重新生效
    source /etc/profile

  3. 格式化数据目录 hadoop namenode -format

  4. 启动hadoop start-all.sh

  5. 如果启动成功,可以在浏览器中输入地址:50070访问hadoop的页面

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值