hadoop第一节

第一部分:知识模块

1.大数据三件事情:

       1.数据采集:flume、logstash、sqoop、datax、maxwell、cannel、flinkcdc、(自己开发spark、flink)

       2.数据存储:hadoop、hbase、kudu、clickhouse、mysql、tidb、solar

       3.数据分析:mapreduce(hadoop)、hive、spark、flink、phoenix、clickhouse、kylin、presto、druid、impala

       数据传输: kafka、pular

2.数据处理的方式:

       1.离线计算、批处理 :

              根据业务周期性来定:

                     eg:

                            T+1 :

                            H+1: 当前时间点 处理上一个小时【整点】之前的数据

       2.实时计算、实时处理:

              业务周期性:

                     1.指标:1s、3s、5s、10s

                     2.数仓:

                            1min、5min、10min、30min

hadoop:分布式文件存储系统

       广义:hadoop为主的生态圈(sqoophive、spark、flink、cdh)

       狭义:hadoop本身

hadoop组成:

MapReduce(计算)

并行计算框架,0.20前使用org.apache.hadoop.mapred旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API

HDFS (数据存储)

Hadoop分布式文件系统(Distributed File System)-HDFS(Hadoop Distributed File System)

Yarn (资源调度)

负责管理集群中的计算资源并使用它们来调度用户的应用程序

Common (辅助工具)

在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common,包含其他Hadoop模块所需的库和实用程序;不关注

你可以理解为,将文件存储至HDFS,根据自己的需求编写业务代码(包括MapTask,ReduceTask,也就是MapReduce),然后发布,让Yarn负责调度集群中的资源,将任务分发出去,每个领到任务的集群执行任务。

1.数据存储:hdfs

       namenode  老大

       datanode  小弟

       seconderynamenode 秘书

2.资源分配和任务调度: yarn

       resourcemanager 老大

       nodemanager 小弟

简述hadoop安装?

1)使用 root 账户登录

2)修改 IP

3)修改 host 主机名

4)配置 SSH 免密码登录

5)关闭防火墙

6)安装 JDK

7)解压 hadoop 安装包

8)配置 hadoop 的核心文件 hadoop-env.sh,core-site.xml , mapred-site.xml ,

hdfs-site.xml

9)配置 hadoop 环境变量

10)格式化 hadoop namenode-format

11)启动节点 start-all.sh

Hadoop 中需要哪些配置文件,其作用是什么?

1)core-site.xml:

       (1)fs.defaultFS:hdfs://cluster1(域名),这里的值指的是默认的 HDFS 路径 。

       (2)hadoop.tmp.dir:/export/data/hadoop_tmp,这里的路径默认是 NameNode、DataNode、secondaryNamenode 等存放数据的公共目录。用户也可以自己单独指定这三类节点的目录。

     (3)ha.zookeeper.quorum:hadoop101:2181,hadoop102:2181,hadoop103:2181, 这 里 是

ZooKeeper 集群的地址和端口。注意,数量一定是奇数,且不少于三个节点 。

2)hadoop-env.sh: 只需设置 jdk 的安装路径,如:export JAVA_HOME=/usr/local/jdk。

3)hdfs-site.xml:

       (1) dfs.replication:他决定着系统里面的文件块的数据备份个数,默认为 3 个。

       (2) dfs.data.dir:datanode 节点存储在文件系统的目录 。

       (3) dfs.name.dir:是 namenode 节点存储 hadoop 文件系统信息的本地系统路径 。

4)mapred-site.xml:

mapreduce.framework.name: yarn 指定 mr 运行在 yarn 上

 第二部分:实验步骤

  1. 下载并安装vmware和centos,创建一个hadoop100的模板虚拟机。

然后进行模板虚拟机hadoop100的静态IP的修改。

 

接着进行linux系统的虚拟网络配置

 然后进行windows的以太网络的设置

 

修改克隆主机名称,配置克隆主机名称映射

 

需要下载远程操控软件xshell和文件传输软件xftp,然后进行与克隆虚拟机的连接。接着就是在xshell上进行验证主机网络名称,以及测试网络主机的上网情况

 

 
安装epel-release软件库

进行防火墙的关闭以及开机自启的关闭设置,操作指令就是:systemctl stop firewalld

systemctl disable firewalld.service

在用户目录下创建相关文件夹来进行存储JDK和Hadoop的压缩包的存储和解压之后的存储

 

 

 

 

 


接着就是以模板虚拟机为原型来进行克隆,克隆出三台虚拟机,然后分别进行主机名称的更改,分别更改为hadoop102,hadoop103,hadoop104。

然后就是在hadoop102虚拟机上解压JDK和Hadoop,并且配置他们两个的环境变量

wyx

配置完环境变量之后还需要分别再source一下,来激活java和hadoop,这样才能使用java和hadoop。

创建xsync集群分发脚本来把JDK和Hadoop分发给hadoop103和hadoop104,集群分发脚本里写入的内容是:

#!/bin/bash

#1. 判断参数个数

if [ $# -lt 1 ]

then

echo Not Enough Arguement!

exit;

Fi

#2. 遍历集群所有机器

for host in hadoop102 hadoop103 hadoop104

do

echo ==================== $host ====================

#3. 遍历所有目录,挨个发送

for file in $@

do

#4. 判断文件是否存在

if [ -e $file ]

then

#5. 获取父目录

pdir=$(cd -P $(dirname $file); pwd)

#6. 获取当前文件的名称

fname=$(basename $file)

ssh $host "mkdir -p $pdir"

rsync -av $pdir/$fname $host:$pdir

else

echo $file does not exists!

fi

Done

done

 

修改完后的脚本文件还需要进行执行权限的设置,指令为:chmod +x xsync,还需要将脚本复制到/bin目录中,来进行全局的调用。指令是:sudo cp xsync /bin/,然后在hadoop103和hadoop104上分别再source一次,来让环境变量生效。

SSH无密登录的配置,需要先生成公钥和私钥,然后再将公钥拷贝到需要进行设置的虚拟机上,相关操作指令是:ssh-keygen -t rsa和ssh-copy-id hadoop102

 

 

 

配置完三台虚拟机的免密登录之后还需要再将hadoop102的root用户的免密登录配置到hadoop102,hadoop103和hadoop104上。

集群部署规划的操作,分别配置core-site.xml,hdfs-site.xml,yarn-site.xml,mapred-site.xml这四个环境文件。

 


启动集群,因为是第一次启动所以需要在 hadoop102 节点格式化 NameNode,然后再执行启动指令:hdfs namenode -format,最后就可以通过输入jps来进行查询每台虚拟机上的生成的节点是什么了。

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值