Hadoop学习第一课(简单了解Hadoop以及Hadoop3.2.2版本的安装部署)

一.Hadoop(大数据组件)
广义:以hadoop软件为主的生态圈(Sqoop、Flume、Spark、Flink、Hbase、Kafka和cdh环境)

狭义:hadoop软件本身,开源的(在gitlab上可以看到源代码和地址)--开源必会存在bug

二.组成
Hadoop由以下三个部分组成:

1.hdfs  存储数据(可以理解为网盘)--hbase、kudu(组件)

2.mapreduce  计算作业(生产上不使用,但设计理念指导着其他框架,比如Spark和Flink)

3.yarn  资源(CPU、内存memory)和作业的调度

大数据平台:存储是第一位,存储和计算是相辅相成的

例:假如有100台机器(电脑),有一个很大的计算作业,100G的数据

  ①首先需要存储.但是一台机器存不下去,那么就需要把这些数据分开存进这100台机器,这时候hdfs会把文件切割,进行分布式存储(读的时候会自动拼接)。

  ②计算(作业),可以跑在其中某台或几台,计算时就需要从hdfs存储的资源里抽取调度,通过集群光纤传输到计算机的机器上,计算完成后又会把结果再次执行回写到存储上面(这里的存储可以是外部存储)。

三.hadoop的安装部署
1.我用的版本是:hadoop-3.2.2(【注意】:下载二进制的binary,不要下载源代码)

2.学会看官方文档,跟着文档的步骤来进行

 

3.部署前的准备

3.1 从Windows上传文件到Linux:rz命令或者winscp软件

      上传hadoop包,到/tmp(权限777)目录,不会受权限影响

3.2 创建用户

 切换hadoop用户

创建自己的文件夹:

sourcecode(源代码编译)、software(安装包)、app(包解压目录)、log(日志文件)、lib(第三方jar)、data(数据目录)、tmp(临时文件)、sh(sh脚本)

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值