一.Hadoop(大数据组件)
广义:以hadoop软件为主的生态圈(Sqoop、Flume、Spark、Flink、Hbase、Kafka和cdh环境)
狭义:hadoop软件本身,开源的(在gitlab上可以看到源代码和地址)--开源必会存在bug
二.组成
Hadoop由以下三个部分组成:
1.hdfs 存储数据(可以理解为网盘)--hbase、kudu(组件)
2.mapreduce 计算作业(生产上不使用,但设计理念指导着其他框架,比如Spark和Flink)
3.yarn 资源(CPU、内存memory)和作业的调度
大数据平台:存储是第一位,存储和计算是相辅相成的
例:假如有100台机器(电脑),有一个很大的计算作业,100G的数据
①首先需要存储.但是一台机器存不下去,那么就需要把这些数据分开存进这100台机器,这时候hdfs会把文件切割,进行分布式存储(读的时候会自动拼接)。
②计算(作业),可以跑在其中某台或几台,计算时就需要从hdfs存储的资源里抽取调度,通过集群光纤传输到计算机的机器上,计算完成后又会把结果再次执行回写到存储上面(这里的存储可以是外部存储)。
三.hadoop的安装部署
1.我用的版本是:hadoop-3.2.2(【注意】:下载二进制的binary,不要下载源代码)
2.学会看官方文档,跟着文档的步骤来进行
3.部署前的准备
3.1 从Windows上传文件到Linux:rz命令或者winscp软件
上传hadoop包,到/tmp(权限777)目录,不会受权限影响
3.2 创建用户
切换hadoop用户
创建自己的文件夹:
sourcecode(源代码编译)、software(安装包)、app(包解压目录)、log(日志文件)、lib(第三方jar)、data(数据目录)、tmp(临时文件)、sh(sh脚本)