Hadoop(入门)知识点总结

最新推荐文章于 2024-04-27 19:57:45 发布

「miraitowa」

最新推荐文章于 2024-04-27 19:57:45 发布

阅读量1.9k

点赞数 1

分类专栏： Hadoop + Zookeeper 文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_45557389/article/details/104114589

版权

Hadoop + Zookeeper 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

第1章大数据概论

1.1 大数据概念

大数据(Big Data)：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

主要解决：海量数据的存储、海量数据的分析计算、统一资源管理调度

按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

1Byte = 8bit，1KB = 1024Byte，1MB = 1024KB，1G = 1024MB，1T = 1024GB，1P = 1024T，1ZB = 10的21次方字节等于1000EB

1.2 大数据特点(4V)

1.2.1 Volume(大量)

1.2.2 Velocity(高速)

这是大数据区分于传统数据挖掘的最显著特征

1.2.3 Variety(多样)

这种类型的多样性也让数据被分为结构化数据和非结构化数据

1.2.4 value(低价值密度)

价值密度的高低与数据总量的大小成反比

1.3 大数据部门组织结构

大数据部门组织结构，适用于大中型企业
在这里插入图片描述

第2章从Hadoop框架讨论大数据生态

2.1 Hadoop三大发行版本

Apache、Cloudera、Hortonworks

2.2 Hadoop的优势(4高)

A. 高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失

B. 高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点

C. 高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度

D. 高容错性：能够自动将失败的任务重新分配

2.3 Hadoop组成

2.3.1 hadoop1.x和hadoop2.x区别

在这里插入图片描述

Hadoop1.x：Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大

Hadoop2.x：增加了Yarn，Yarn只负责资源的调度，MapReduce只负责运算

2.3.2 HDFS架构概述

HDFS(Hadoop Distributed File System)的组成作用

A. NameNode(nn)：存储文件的元数据，如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限)、以及每个文件的块列表和块所在的DataNode等

B. DataNode(dn)：在本地文本系统存储文件块数据，以及块数据的校验和

C. SecondaryNameNode(2nn)：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照

2.3.3 YARN架构概述

YARN()的组成作用

在这里插入图片描述

A. ResourceManager(RM)：处理客户端请求；监控NodeManager；启动或监控ApplicationMaster；资源的分配与调度

B. NodeManager(NM)：管理单个节点上的资源；处理来自ResourceManager的命令；处理来自ApplicationMaster的命令

C. ApplicationMaster (AM)：负责数据的切分；为应用程序申请资源并分配给内部的任务；任务的监控与容错

D. Container：Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等

2.3.4 MapReduce架构概述

MapReduce将计算过程分为两个阶段：Map和Reduce

Map阶段并行处理输入数据

Reduce阶段对Map结果进行汇总

2.4 大数据技术生态体系

在这里插入图片描述

A. Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

B. Flume：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

C. Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统，有如下特性：

·	通过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。
·	高吞吐量：即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。
·	支持通过Kafka服务器和消费机集群来分区消息。
·	支持Hadoop并行数据加载。

D. Storm：Storm用于“连续计算”，对数据流做连续查询，在计算时就将结果以流的形式输出给用户。

E. Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

F. Oozie：Oozie是一个管理Hadoop作业（job）的工作流程调度管理系统。

G. Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

H. Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

I. 1R语言：R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。

J. Mahout：Apache Mahout是个可扩展的机器学习和数据挖掘库。

K. ZooKeeper：Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

2.5 推荐系统框架图

在这里插入图片描述

第3章 hadoop开发环境准备

3.1 虚拟机准备

3.1.1 修改虚拟机的静态IP

在这里插入图片描述

3.1.2 关闭防火墙

在这里插入图片描述

3.1.3 修改主机名：hadoop01

在这里插入图片描述

3.1.4 创建用户名：jinghang

在这里插入图片描述

3.1.5 配置jinghang具有root权限

在这里插入图片描述

3.1.6 再/etc/hosts 下添加主机和服务器IP的映射关系

在这里插入图片描述

3.1.7 在/opt目录下创建文件夹module和software，并把所有权赋给jinghang

在这里插入图片描述

3.2 安装jdk和hadoop

在这里插入图片描述

3.3 配置环境变量

在这里插入图片描述

3.4 检查java、hadoop是否安装成功

在这里插入图片描述

3.5 Hadoop目录结构

在这里插入图片描述

bin：存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本

etc：Hadoop的配置文件目录，存放Hadoop的配置文件

lib：存放Hadoop的本地库(对数据进行压缩解压缩功能)

sbin：存放启动或停止Hadoop相关服务的脚本‘’

share：存放Hadoop的依赖jar包、文档、和官方案例

第4章 Hadoop运行模式

Hadoop运行模式包括：本地模式、伪模式以及完全分布模式

Hadoop官方网址：http://hadoop.apache.org/

4.1 本地运行模式

4.1.1 官方Grep案例

A. 创建在hadoop-2.7.2文件下面创建一个input文件夹：mkdir input

B. 将hadoop的xml配置文件复制到input：cp etc/Hadoop/*.xml input

C. 执行share目录下的MapReduce程序

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output1 ‘dfs[a-z.]+’

D. 查看输出结果：cat output1/*

4.1.2 官方WordCount案例

A. 创建hadoop-2.7.2文件下面创建一个wcinput文件夹：mkdir wcinput

B. 在wcinput文件下面创建一个wc.input文件：touch wc.input

C. 编辑wc.input文件

在文件中输入：
hadoop yarn
hadoop mapreduce
jingahng
jinghang

D. 回到hadoop目录/opt/module/hadoop-2.7.2

E. 执行程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

F. 查看结果：cat wcoutput/part-r-00000

4.2 伪分布式运行模式

4.2.1 启动HDFS并运行MapReduce程序

A. 配置集群在这里插入图片描述

配置：hadoop-env.sh

Linux系统中获取JDK的安装路径：echo $JAVA_HOME
修改JAVA_HOME路径：export JAVA_HOME=/opt/module/jdk.8.0_144

配置：core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property>
	<name>fs.defaultFS</name>
	<value>hdfs://hadoop101:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
	<name>hadoop.tmp.dir</name>
	<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

配置：hdfs-site.xml

<!-- 指定HDFS副本的数量 -->
<property>
	<name>dfs.replication</name>
	<value>1</value>
</property>

B. 启动集群

· 格式化NameNode：bin/hdfs namenode -format

· 启动NameNode：sbin/hadoop-daemon.sh start namenode

· 启动DataNode：sbin/hadoop-daemon.sh start datanode

C. 查看集群

查看是否启动成功：jps

jps式JDK中的命令，不是Linux命令，不安装JDK不能使用jps

web端查看HDFS文件系统

在电脑中C:\Windows\System32\drivers\etc\hosts中添加：192.168.28.121 hadoop01

(主机名)hadoop01:50070 (静态IP)192.168.28.121:50070

查看产生的Log日志（当前目录：/opt/module/hadoop-2.7.2/logs）

cat hadoop-jinghang-datanode-hadoop01.log

在企业中遇到Bug时，经常根据日志提示信息去分析问题、解决Bug

思考：为什么不能一直格式化NameNode，格式化NameNode要注意什么？

格式化NameNode会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到以往数据；所以，格式化NameNode时，一定要先删除data数据和log日志，然后再格式化NameNode。

D. 操作集群

· 在HDFS文件系统上创建一个input文件夹

bin/hdfs dfs -mkdir -p /user/jinghang/input

· 将测试文件内容上传到文件系统上

bin/hdfs dfs -put wcinput/wc.input /user/jinghang/input/

· 查看上传的文件是否正确

bin/hdfs dfs -ls /user/jinghang/input/

bin/hdfs dfs -cat /user/jinghang/input/wc.input

· 运行MapReduce程序

bin/hadoop jar share/hadoop/mapredyce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/jinghang/input/ /user/jinghang/output

· 查看输出结果

bin/hdfs dfs -cat /user/jinghang/output/*

· 将测试文件内容下载到本地

hdfs dfs -get /user/jinghang/output/part-r-00000 ./wcoutput

· 删除输出结果

hdfs dfs -rm -r /user/jinghang/output

4.2.2 启动YARN并运行MapReduce程序

A. 配置集群

配置：yarn-env.sh

配置JAVA_HOME路径：export JAVA_HOME=/opt/module/jdk.8.0_144

配置：yarn-site.xml

<!--Reducer获取数据的方式 -->
<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>hadoop01</value>
</property>

配置：mapred-env.sh

配置JAVA_HOME路径：export JAVA_HOME=/opt/module/jdk.8.0_144

配置：(对mapred-site.xml.template重新命名为)mapred-site.xml

重命名：mv mapred-site.xml.template mapred-site.xml

<!-- 指定MR运行在YARN上 -->
<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>

B. 启动集群

· 启动前必须保证NameNode和DataNode已经启动

· 启动ResourceManager：sbin/yarn-daemon.sh start resourcemanager

· 启动NodeManager：sbin/yarn-daemon.sh start nodemanager

C. 操作集群

· YARN的浏览器页面查看

http://hadoop01:8088

· 删除文件系统上的output文件

bin/hdfs dfs -rm -R /user/jinghang/output/

· 执行MapReduce程序

bin/hadoop jar share/hadoop/mapredyce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/jinghang/input/ /user/jinghang/output

· 查看运行结果

bin/hdfs dfs -cat /user/jinghang/output/*

4.2.3 配置历史服务器

为了查看程序的历史运行情况，需要配置一下历史服务器

配置mapred-site.xml

<-- 历史服务器端地址 -->
<property>
	<name>mapreduce.jobhistory.address </name>
	<value>hadoop01:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
	<name>mapreduce.jobhistory.webapp.address </name>
	<value>hadoop01:19888</value>
</property>

B. 启动历史服务器：sbin/mr-jobhistory-daemon.sh start historyserver

C. 查看历史服务器是否启动：jps

D. 查看JobHistory：http://hadoop101:19888/jobhistory

4.2.4 配置日志的聚集

日志聚集概念：应用运行完成之后，将程序运行日志信息上传到HDFS系统上

日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试

注意：开启日志聚集功能，需要重新启动NodeManager、ResourceManager和HistoryManager

配置yarn-site.xml

<!-- 日志聚集功能使用 -->
<property>
	<name>yarn.log-aggregation-enable</name>
	<value>true</value>
</property>

<!-- 日志保留时间设置7天 -->
<property>
	<name> yarn.log-aggregation.retain-seconds</name>
	<value>604800</value>
</property>

B. 关闭NameNode、DataNode、NodeManager、ResourceManager和HistoryServer

sbin/hadoop-daemon.sh stop namenode
sbin/hadoop-daemon.sh stop datanode
sbin/yarn-daemon.sh stop resourcemanager
sbin/yarn-daemon.sh stop nodemanager
sbin/mr-jobhistory-daemon.sh stop historyserver

C. 启动NameNode、DataNode、NodeManager、ResourceManager和HistoryServer

sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
sbin/mr-jobhistory-daemon.sh start historyserver

D. 删除HDFS上已经存在的输出文件

bin/hdfs dfs -rm -R /user/jinghang/output

E. 执行WordCount程序

hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /user/jinghang/input /user/jinghang/output

F. 查看日志：http://hadoop01:19888/jobhistory

4.2.5 配置文件说明

Hadoop配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值

A. 默认配置文件

要获取的默认文件	文件存放在Hadoop的jar包中的位置
core-default.xml	hadoop-common-2.7.2.jar/ core-default.xml
hdfs-default.xml	hadoop-hdfs-2.7.2.jar/ hdfs-default.xml
yarn-default.xml	hadoop-yarn-common-2.7.2.jar/ yarn-default.xml
mapred-default.xml	hadoop-mapreduce-client-core-2.7.2.jar/ mapred-default.xml

B. 自定义配置文件

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml四个配置文件存放在 $HADOOP_HOME/etc/hadoop路径上，用户可以根据项目需求重新进行修改配置

4.3 完全分布式运行模式

4.3.1 虚拟机准备

详见3.1章

4.3.2 编写集群分发脚本myrsync

A. scp(secure copy)完全拷贝

scp可以实现服务器与服务器之间的数据拷贝(from server1 to server2)

基本语法：scp -r /etc/profile root@hadoop02:/etc

注意：拷贝过来的配置文件别忘了source /etc/profile

B. rsync远程同步工具

rsync主要用于备份和镜像；具有速度快、避免复制相同内容和支持符号链接的优点

rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新；scp是把所有文件都复制过去

基本语法：rsync -av $pdir/$fname $user@hadoop$host:$pdir/$fname

参数：-a(归档拷贝) -v(显示复制过程)

C. myrsync集群分发脚本

在/home/jinghang/bin目录下存放的脚本，jinghang用户可以在系统任何地方直接执行

· 在/home/jinghang目录下创建bin目录，并在bin目录下创建myrsync文件

#!/bin/bash
#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if ((pcount==0)); then
echo no args;
exit;
fi
#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname
#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir
#4 获取当前用户名称
user=`whoami`
#5 循环
for((host=103; host<105; host++)); do
	echo ------------------- hadoop$host --------------
	rsync -av $pdir/$fname $user@hadoop$host:$pdir
done

· 修改脚本myrsync具有执行权限：chmod 777 myrsync

· 调用脚本形式：myrsync /home/jinghang/bin

· 如果将myrsync放到/home/jinghang/bin目录下仍然不能实现全局使用，可以将myrsync移动到/user/local/bin目录下

4.3.3 集群配置

A．集群部署计划

	hadoop01	hadoop02	hadoop03
HDFS	NameNode(50070) DataNode	DataNode	SecondaryNameNode(50090) DataNode
YARN	NodeManager	ResourceManager(8088) NodeManager	NodeManager

B．配置集群

配置core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property>
	<name>fs.defaultFS</name>
	<value>hdfs://hadoop01:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
	<name>hadoop.tmp.dir</name>
	<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

配置hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

配置hdfs-site.xml

<property>
	<name>dfs.replication</name>
	<value>3</value>

<property>
	<name>dfs.namenode.secondary.http-address</name>
	<value>hadoop03:50090</value>
</property>

配置yarn-env.sh

export JAVA_HOME=/opt/module/jdk.8.0_144

配置yarn-site.xml

<!-- Reducer获取数据的方式 -->
<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>hadoop02</value>
</property>

配置mapred-env.sh

export JAVA_HOME=/opt/module/jdk.8.0_144

配置mapred-site.xml

<!-- 指定MR运行在YARN上 -->
<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>

C．在集群上分发配置好的hadoop配置文件：myrsync /opt/module/hadoop-2.7.2/

4.3.4 集群单点启动

如果集群是第一次启动，需要格式化NameNode：bin/hdfs namenode -format

sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh start datanode
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemon.sh start nodemanager
sbin/mr-jobhistory-daemon.sh start historyserver

4.3.5 SSH无密登陆配置

A．无密钥配置

·免密登陆原理
在这里插入图片描述

· 生成公钥和私钥：ssh -keygen -t rsa

然后敲三个回车，就会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)

· 将公钥拷贝到要免密登陆的目标机器上

ssh-copy-id hadoop01，ssh-copy-id hadoop02，ssh-copy-id hadoop03

C．.ssh文件夹下(~/.ssh)的文件功能解释

known_hosts	记录ssh访问过计算机的公钥(public key)
id_rsa	生成的私钥
id_rsa.pub	生成的公钥
authorized_keys	存放授权过得无密登录服务器公钥

4.3.6 群起集群

A．配置slaves

/opt/module/hadoop-2.7.2/etc/hadoop/slaves

在vim slaves中添加：

hadoop01
hadoop02
hadoop03

同步所有节点配置文件：myrsync slaves

B．启动集群

· 如果集群是第一次启动，需要格式化NameNode(注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和logs数据)：bin/hdfs namenode -format

· 启动HDFS：sbin/start-dfs.sh

· 启动YARN：sbin/start-yarn.sh

· 注意：NameNode和ResourceManager如果不是同一台机器，不能在NameNode上启动YARN，应该在ReaourceManager所在的机器上启动YARN

4.3.7 集群停止

A．整体停止HDFS：stop-dfs.sh

B．整体停止YARN：stop-yarn.sh

4.3.8 集群时间同步

A．时间服务器配置(必须是root用户)

· 检查ntp是否安装：rpm -qa | grep ntp

· 查看ntp的状态：切记正在运行的状态是不可以的,需要先停止,不然端口会被占用：service ntpd status

· 关闭ntpd服务：service ntpd stop chkconfig ntpd off

· 修改ntp配置文件：vim /etc/ntp.conf

1修改：restrict 192.168.1.0 mask 255.255.255.0 nomodify notrap(注释去掉)；授权192.168.1.0-255.255.255.0网段上所有机器可以从这台机器上查询和同步时间
2修改：server 0.centos.pool.ntp.org iburst…(添加注释)；集群在局域网中，不使用其他互联网上的时间
3添加：server 127.127.1.0  fudge127.127.1.0 stratum 10；当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步

· 修改/etc/sysconfig/ntpd文件：增加SYNC_HWCLOCK=yes

· 重新启动ntpd服务：service ntpd start

· 设置ntpd服务开机启动：chkconfig ntpd on

B．其他机器配置(必须是root用户)

· 在其他机器配置每分钟与时间服务器同步一次：crontab -e

* * * * * /usr/sbin/ntpdate hadoop01

· 修改任意机器时间：date -s “2019-12-21 11:11:11”

· 一分钟后查看机器是否与时间服务器同步：date

「miraitowa」

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Hadoop(入门)知识点总结

第1章大数据概论1.1 大数据概念大数据(Big Data)：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决：海量数据的存储、海量数据的分析计算、统一资源管理调度按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB...
复制链接

扫一扫