hadoop第一节

最新推荐文章于 2024-08-10 02:40:24 发布

欣欣没肉吖

最新推荐文章于 2024-08-10 02:40:24 发布

阅读量244

点赞数

分类专栏： study study——————wyx 文章标签： hadoop big data 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50662428/article/details/124796036

版权

study 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

study——————wyx

11 篇文章 0 订阅

订阅专栏

第一部分：知识模块

1.大数据三件事情：

1.数据采集：flume、logstash、sqoop、datax、maxwell、cannel、flinkcdc、（自己开发spark、flink）

2.数据存储：hadoop、hbase、kudu、clickhouse、mysql、tidb、solar

3.数据分析：mapreduce（hadoop）、hive、spark、flink、phoenix、clickhouse、kylin、presto、druid、impala

数据传输： kafka、pular

2.数据处理的方式：

1.离线计算、批处理：

根据业务周期性来定：

eg:

T+1 :

H+1: 当前时间点处理上一个小时【整点】之前的数据

2.实时计算、实时处理：

业务周期性：

1.指标：1s、3s、5s、10s

2.数仓：

1min、5min、10min、30min

hadoop：分布式文件存储系统

广义：hadoop为主的生态圈（sqoophive、spark、flink、cdh）

狭义：hadoop本身

hadoop组成：

MapReduce（计算）

并行计算框架，0.20前使用org.apache.hadoop.mapred旧接口，0.20版本开始引入org.apache.hadoop.mapreduce的新API

HDFS （数据存储）

Hadoop分布式文件系统（Distributed File System）－HDFS（Hadoop Distributed File System）

Yarn （资源调度）

负责管理集群中的计算资源并使用它们来调度用户的应用程序

Common （辅助工具）

在0.20及以前的版本中，包含HDFS、MapReduce和其他项目公共内容，从0.21开始HDFS和MapReduce被分离为独立的子项目，其余内容为Hadoop Common，包含其他Hadoop模块所需的库和实用程序；不关注

你可以理解为，将文件存储至HDFS，根据自己的需求编写业务代码（包括MapTask，ReduceTask，也就是MapReduce），然后发布，让Yarn负责调度集群中的资源，将任务分发出去，每个领到任务的集群执行任务。

1.数据存储：hdfs

namenode 老大

datanode 小弟

seconderynamenode 秘书

2.资源分配和任务调度： yarn

resourcemanager 老大

nodemanager 小弟

简述hadoop安装？

1）使用 root 账户登录

2）修改 IP

3）修改 host 主机名

4）配置 SSH 免密码登录

5）关闭防火墙

6）安装 JDK

7）解压 hadoop 安装包

8）配置 hadoop 的核心文件 hadoop-env.sh，core-site.xml , mapred-site.xml ，

hdfs-site.xml

9）配置 hadoop 环境变量

10）格式化 hadoop namenode-format

11）启动节点 start-all.sh

Hadoop 中需要哪些配置文件，其作用是什么？

1）core-site.xml：

(1)fs.defaultFS:hdfs://cluster1(域名)，这里的值指的是默认的 HDFS 路径。

(2)hadoop.tmp.dir:/export/data/hadoop_tmp,这里的路径默认是 NameNode、DataNode、secondaryNamenode 等存放数据的公共目录。用户也可以自己单独指定这三类节点的目录。

（3)ha.zookeeper.quorum:hadoop101:2181,hadoop102:2181,hadoop103:2181, 这里是

ZooKeeper 集群的地址和端口。注意，数量一定是奇数，且不少于三个节点。

2）hadoop-env.sh: 只需设置 jdk 的安装路径，如：export JAVA_HOME=/usr/local/jdk。

3）hdfs-site.xml：

(1) dfs.replication:他决定着系统里面的文件块的数据备份个数，默认为 3 个。

(2) dfs.data.dir:datanode 节点存储在文件系统的目录。

(3) dfs.name.dir:是 namenode 节点存储 hadoop 文件系统信息的本地系统路径。

4）mapred-site.xml：

mapreduce.framework.name: yarn 指定 mr 运行在 yarn 上

第二部分：实验步骤

下载并安装vmware和centos，创建一个hadoop100的模板虚拟机。

然后进行模板虚拟机hadoop100的静态IP的修改。

接着进行linux系统的虚拟网络配置

然后进行windows的以太网络的设置

修改克隆主机名称，配置克隆主机名称映射

需要下载远程操控软件xshell和文件传输软件xftp，然后进行与克隆虚拟机的连接。接着就是在xshell上进行验证主机网络名称，以及测试网络主机的上网情况

安装epel-release软件库

进行防火墙的关闭以及开机自启的关闭设置，操作指令就是：systemctl stop firewalld

systemctl disable firewalld.service

在用户目录下创建相关文件夹来进行存储JDK和Hadoop的压缩包的存储和解压之后的存储

接着就是以模板虚拟机为原型来进行克隆，克隆出三台虚拟机，然后分别进行主机名称的更改，分别更改为hadoop102，hadoop103，hadoop104。

然后就是在hadoop102虚拟机上解压JDK和Hadoop，并且配置他们两个的环境变量

wyx

配置完环境变量之后还需要分别再source一下，来激活java和hadoop，这样才能使用java和hadoop。

创建xsync集群分发脚本来把JDK和Hadoop分发给hadoop103和hadoop104，集群分发脚本里写入的内容是：

#!/bin/bash

#1. 判断参数个数

if [ $# -lt 1 ]

then

echo Not Enough Arguement!

exit;

Fi

#2. 遍历集群所有机器

for host in hadoop102 hadoop103 hadoop104

do

echo ==================== $host ====================

#3. 遍历所有目录，挨个发送

for file in $@

do

#4. 判断文件是否存在

if [ -e $file ]

then

#5. 获取父目录

pdir=$(cd -P $(dirname $file); pwd)

#6. 获取当前文件的名称

fname=$(basename $file)

ssh $host "mkdir -p $pdir"

rsync -av $pdir/$fname $host:$pdir

else

echo $file does not exists!

fi

Done

done

修改完后的脚本文件还需要进行执行权限的设置，指令为：chmod +x xsync，还需要将脚本复制到/bin目录中，来进行全局的调用。指令是：sudo cp xsync /bin/，然后在hadoop103和hadoop104上分别再source一次，来让环境变量生效。

SSH无密登录的配置，需要先生成公钥和私钥，然后再将公钥拷贝到需要进行设置的虚拟机上，相关操作指令是：ssh-keygen -t rsa和ssh-copy-id hadoop102

配置完三台虚拟机的免密登录之后还需要再将hadoop102的root用户的免密登录配置到hadoop102，hadoop103和hadoop104上。

集群部署规划的操作，分别配置core-site.xml，hdfs-site.xml，yarn-site.xml，mapred-site.xml这四个环境文件。

启动集群，因为是第一次启动所以需要在 hadoop102 节点格式化 NameNode，然后再执行启动指令：hdfs namenode -format，最后就可以通过输入jps来进行查询每台虚拟机上的生成的节点是什么了。

欣欣没肉吖

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hadoop第一节

第一部分：知识模块1.大数据三件事情： 1.数据采集：flume、logstash、sqoop、datax、maxwell、cannel、flinkcdc、（自己开发spark、flink） 2.数据存储：hadoop、hbase、kudu、clickhouse、mysql、tidb、solar 3.数据分析：mapreduce（hadoop）、hive、spark、flink、phoenix、clickhouse、kylin、presto、druid、...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。