Hadoop概述，及虚拟机集群搭建详解_hadoop集群虚拟机搭建-CSDN博客

本文链接：https://blog.csdn.net/weixin_48796645/article/details/137227405

本文介绍了云平台的基础使用，包括阿里云和UCloud的环境搭建，以及虚拟机集群的搭建、分布式概念、虚拟机拷贝方法、数据文件通过SSH协议传递、软件安装技巧（包括tar.gz文件操作和Java环境设置）和Hadoop（特别是HDFS和MapReduce）的概述。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、云平台

云平台的使用是近些年大数据或IT开发从业者必备技能之一，也是电脑配置较低或使用M1、M2芯片Mac电脑同学的解决方案，所以，课程也会讲解基于云平台的环境方案。

云平台的选择上，课程讲解2个云平台：

阿里云平台的基础使用（阿里云国内最知名的云平台）
UCloud云平台的基础使用（小众云平台的代表）

掌握这两个平台，市面上各类云平台的使用基本就没有难度了
学习大数据需要有多台Linux操作系统环境，课程提供2套环境的内容：
- 基于VMware的本地虚拟机环境
- 基于阿里云、UCloud的云平台环境
为什么选择两套环境？
- VMware、云平台都是开发人员必备技能之一
- 电脑配置较低或使用M1、M2芯片的Mac电脑，均无法完美的使用虚拟机，云平台是一个很好的替代方案
为什么选择2套云平台？
- 阿里云最知名，UCloud较小众
- 了解两个不同体量的平台的使用，未来切换任何云平台都没问题

二、虚拟机集群搭建

node1，node2，node3的信息说明

（1）已经安装mysql5.7，hadoop3.3.0，hive，spark3，kafka

（2）ip连接地址设置

示例：node1 192.168.88.161

node2 192.168.88.162

node3 192.168.88.163

（3）登录账号设置，三台相同

三、集群/分布式

多台服务器参与运行

集群: 多台服务器共同完成相同的业务,就是一个集群.

分布式: 多台服务器共同完成不同的业务就是分布式.

安装部署层面说

单机部署

使用一台服务器安装所有服务

集群部署

使用多台服务器安装对应分布式服务

四、虚拟机拷贝

克隆虚拟机构建Hadoop集群过程详细。

五、数据文件传递

服务器之间传递数据，依赖ssh协议

http协议是web网站之间的通讯协议，用户可已通过http网址访问到对应网站数据

ssh协议是服务器之间，或windos和服务器之间传递的数据的协议。支持shell指令的传输

在linux中默认自带ssh客户端，可以使用ssh指令进行服务器连接

ssh免密登录

每次登录不需要再输入密码

分别在node1、node2、node3上执行如下命令

生成秘钥
ssh-keygen

拷贝秘钥
ssh-copy-id node1
ssh-copy-id node2
ssh-copy-id node3

基于ssh协议进行服务器之间的文件或目录的传输

使用指令scp
scp -r 本机文件或目录路径  目标服务器名:目标服务器路径

六、软件安装

tar.gz文件使用tar指令解压

        tar xvf   压缩包文件
        x 代表解压
        v 显示解压详情
        f 代表解压文件

压缩

        tar cvf    压缩包名.tar.gz  文件或目录

安装解压后，使用java是会出现找不到java指令，原因是因为没有指定系统环境变量，默认java指令是在安装包的bin目录下，通过设置系统环境变量，就可以在任意位置使用java指令。

linux中系统环境变量在 /etc/profile文件中

echo 'export JAVA_HOME=/export/server/jdk1.8.0_241' >> /etc/profile
echo 'export PATH=$PATH:$JAVA_HOME/bin' >> /etc/profile
echo 'export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar' >> /etc/profile
source /etc/profile

七、Apache Hadoop概述

Hadoop的功能组件

HDFS分布式文件存储系统: 负责海量数据的存储工作

MapReduce分布式计算框架: 负责海量数据的计算工作

Yarn分布式资源调度工具: 负责分布式集群的资源调度工作

Hadoop发展

创始人: 道格·卡丁

Hadoop发行时间: 2008年

hadoop的发展受谷歌的三篇论文影响, 后被称为大数据发展的三驾马车

Hadoop版本

社区版: 开源免费

优点: 更新速度快,技术新

缺点: 兼容性差不稳定

商业版: CDH 将所有大数据相关组件都重写了一遍并进行了精细测试解决了兼容性问题和稳定性问题

优点: 兼容稳定性好

确定: 技术旧,收费

注意: 在企业级开发中我们使用的大多是商业版hadoop, CDH版本Hadoop在6.2.4版本之前是不收费的.