Hadoop day01

最新推荐文章于 2024-09-13 09:31:16 发布

快乐咸鱼Y

最新推荐文章于 2024-09-13 09:31:16 发布

阅读量151

点赞数

分类专栏： hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/yygyj/article/details/119839030

版权

hadoop 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

大数据概述
一、6v
1.数据体量大
2.数据种类样式多
3.数据的增长速度越来越快
4.数据的价值密度
5.数据的真实性
6.数据的联通性
7.数据的动态性、可视化以及合法性
二、分类
大数据的相关岗位：
数据的存储
数据的采集
数据清洗-ETL
数据分析离线批处理实时流处理
数据挖掘
数据可视化

Hadoop简介
一、概述
1.Hadoop是apache提供的一套开源的，可靠的，可扩展的，进行分布式存储和计算的框架。
2.Hadoop的版本很混乱

二、发展历程
1.创始人： Doug Cutting和Mike Caferalla
2.在2002年，这两个人设计一套搜索引擎Nutch，爬取了全网的10亿个网页的数据
3.在2003年，谷歌公司发表了一篇论文《The Google File System》(GFS)分布式存储的原理，但是谷歌并没有公布这个框架，Doug根据这篇论文设计实现了NDFS(Nutch Distributed File System)
4.在2004年，谷歌发表了一篇论文《The Google MapReduce》阐述了分布式计算的原理，Doug根据这篇论文设计了MapReduce
5.在Nutch0.8版本的时候，将NDFS和MapReduce从Nutch中分离出来了Hadoop，将NDHS更名为HDFS
6.在2007年，Doug携带Hadoop入职了Yahoo
7.Doug在雅虎工作期间，主持了HBase、Pig等框架。
8.Yahoop将Hadoop等框架贡献给了apache，雅虎之后谢幕

三、模块
1.Hadoop Common：基本模块，用于支持其它模块
2.Hadoop distributed Filesystem：分布式存储框架
3.Hadoop Yarn:任务调度和集群资源管理
4.Hadoop Mapeduce: 分布式计算
5.Hadoop Ozone:对象存储
6.Hadoop submarine:机器学习引擎

四、版本
1.Hadoop1.0：Common，HDFS、MapReduce
2.Hadoop2.0：Common，HDFS、MapReduce、yarn
注意：hadoop1.0和hadoop2.0不兼容
3.Hadoop3.0：Common，HDFS、MapReduce、yarn、Ozone，最新的版本中包含Submarine

伪分布式Hadoop
1.关闭防火墙chkconfig iptables off
2.需要修改主机名，要求主机名中没有没有_和-

vim /etc/sysconfig/network

修改了名字
在这里插入图片描述

重新生效

source /etc/sysconfig/network

将ip和主机名进行映射

vim /etc/hosts

添加ip和主机名，如下图
在这里插入图片描述
重启

reboot

配置Linux免密互通
产生密钥

ssh-keygen

免密互通

ssh-copy-id root@hadoop01

输入密码（服务器密码）

测试（中间不用输入密码）

[root@hadoop01 ~]# ssh hadoop01
Last login: Sat Aug 21 15:32:50 2021 from 192.168.253.6
[root@hadoop01 ~]# logout
Connection to hadoop01 closed.

安装jdk
下载Hadoop和解压

地址
https://hadoop.apache.org/release/2.7.1.html

tar -xvf hadoop-2.7.1.tar.gz

进入hadoop安装的目录的etc/hadoop目录下

[root@hadoop01 hadoop]# pwd
/home/presoftware/hadoop-2.7.1/etc/hadoop

修改hadoop-env.sh

[root@hadoop01 hadoop]# vim hadoop-env.sh

export JAVA_HOME=/home/presoftware/jdk1.8.0_181

在这里插入图片描述

export HADOOP_CONF_DIR=/home/presoftware/hadoop-2.7.1/etc/hadoop

在这里插入图片描述
保存退出，重新生效

source hadoop-env.sh

编辑core-site.xml

vim core-site.xml

添加

		<property>
                <name>fs.defaultFS</name>
                <value>hdfs://hadoop01:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/presoftware/hadoop-2.7.1/tmp</value>
        </property>

保存退出

编辑hdfs-site.xml

vim hdfs-site.xml

添加

        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>

复制mapred-site.xml.template文件

cp mapred-site.xml.template mapred-site.xml

编辑mapred-site.xml
添加

		<property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>

编辑yarn-site.xml

vim yarn-site.xml

添加

		<property>
          <name>yarn.resourcemanager.hostname</name>
                <value>hadoop01</value>
        </property>
        <property>
      	<name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>

编辑slaves文件

vim slaves

添加主机名
hadoop01

配置环境变量

vim /etc/profile

添加

export HADOOP_HOME=/home/presoftware/hadoop-2.7.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存退出，重新生效

source /etc/profile

hadoop第一次启动之前需要格式化

hadoop namenode -format

启动Hadoop

start-all.sh

关闭

stop-all.sh

如果启动成功，则通过jsp命令，能查到5个进程

[root@hadoop01 hadoop]# jps
2533 NameNode
2808 SecondaryNameNode
3256 Jps
3048 NodeManager
2953 ResourceManager
2636 DataNode

注意：1.如果少了XXXNode，那么修改core,hdfs，删除hadoop-2.7.1/tmp 然后重新格式化重新启动
2.如果XXXManageer,那么修改mapred，yarn，重新启动
3.命令找不见，hadoop-env.sh配置错误，profile配置错了

两个地址
192.168.253.129:50070
192.168.253.129:8088

在这里插入图片描述

启动路径（此处已经配置了环境变量，在哪里都可以启动）

[root@hadoop01 hadoop]# pwd
/home/presoftware/hadoop-2.7.1/etc/hadoop

快乐咸鱼Y

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录