Hadoop学习第一课（简单了解Hadoop以及Hadoop3.2.2版本的安装部署）

最新推荐文章于 2022-11-09 17:23:26 发布

小小程序员呀~

最新推荐文章于 2022-11-09 17:23:26 发布

阅读量2.3k

点赞数 1

文章标签： linux 运维服务器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/whs0329/article/details/121622478

版权

一.Hadoop（大数据组件）
广义：以hadoop软件为主的生态圈(Sqoop、Flume、Spark、Flink、Hbase、Kafka和cdh环境)

狭义：hadoop软件本身，开源的(在gitlab上可以看到源代码和地址)--开源必会存在bug

二.组成
Hadoop由以下三个部分组成：

1.hdfs 存储数据(可以理解为网盘)--hbase、kudu(组件)

2.mapreduce 计算作业(生产上不使用，但设计理念指导着其他框架，比如Spark和Flink)

3.yarn 资源(CPU、内存memory)和作业的调度

大数据平台：存储是第一位，存储和计算是相辅相成的

例：假如有100台机器（电脑），有一个很大的计算作业，100G的数据

①首先需要存储.但是一台机器存不下去,那么就需要把这些数据分开存进这100台机器,这时候hdfs会把文件切割，进行分布式存储（读的时候会自动拼接）。

②计算(作业)，可以跑在其中某台或几台，计算时就需要从hdfs存储的资源里抽取调度，通过集群光纤传输到计算机的机器上，计算完成后又会把结果再次执行回写到存储上面（这里的存储可以是外部存储）。

三.hadoop的安装部署
1.我用的版本是：hadoop-3.2.2(【注意】:下载二进制的binary，不要下载源代码)

2.学会看官方文档，跟着文档的步骤来进行

3.部署前的准备

3.1 从Windows上传文件到Linux：rz命令或者winscp软件

上传hadoop包，到/tmp（权限777）目录，不会受权限影响

3.2 创建用户

切换hadoop用户

创建自己的文件夹：

sourcecode(源代码编译)、software(安装包)、app(包解压目录)、log(日志文件)、lib(第三方jar)、data(数据目录)、tmp(临时文件)、sh(sh脚本)

最低0.47元/天解锁文章

小小程序员呀~

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Hadoop学习第一课（简单了解Hadoop以及Hadoop3.2.2版本的安装部署）

一.Hadoop（大数据组件）广义：以hadoop软件为主的生态圈(Sqoop、Flume、Spark、Flink、Hbase、Kafka和cdh环境)狭义：hadoop软件本身，开源的(在gitlab上可以看到源代码和地址)--开源必会存在bug二.组成Hadoop由以下三个部分组成：1.hdfs 存储数据(可以理解为网盘)--hbase2.mapreduce 计算作业(生产上不使用，但设计理念指导着其他框架，比如Spark和Flink)3.yarn 资源(CPU、内存mem...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。