Hadoop概述,及虚拟机集群搭建详解

本文介绍了云平台的基础使用,包括阿里云和UCloud的环境搭建,以及虚拟机集群的搭建、分布式概念、虚拟机拷贝方法、数据文件通过SSH协议传递、软件安装技巧(包括tar.gz文件操作和Java环境设置)和Hadoop(特别是HDFS和MapReduce)的概述。
摘要由CSDN通过智能技术生成

目录

一、云平台

二、虚拟机集群搭建

三、集群/分布式

四、虚拟机拷贝

五、数据文件传递

生成秘钥ssh-keygen

拷贝秘钥ssh-copy-id node1ssh-copy-id node2ssh-copy-id node3

六、软件安装

七、Apache Hadoop概述

八、HDFS角色分配

九、Hadoop HDFS 下载路径

一、云平台

云平台的使用是近些年大数据或IT开发从业者必备技能之一,也是电脑配置较低或使用M1、M2芯片Mac电脑同学的解决方案,所以,课程也会讲解基于云平台的环境方案。

云平台的选择上,课程讲解2个云平台:

  • 阿里云平台的基础使用(阿里云国内最知名的云平台)

  • UCloud云平台的基础使用(小众云平台的代表)

    掌握这两个平台,市面上各类云平台的使用基本就没有难度了

  • 学习大数据需要有多台Linux操作系统环境,课程提供2套环境的内容:

    • 基于VMware的本地虚拟机环境

    • 基于阿里云、UCloud的云平台环境

  • 为什么选择两套环境?

    • VMware、云平台都是开发人员必备技能之一

    • 电脑配置较低或使用M1、M2芯片的Mac电脑,均无法完美的使用虚拟机,云平台是一个很好的替代方案

  • 为什么选择2套云平台?

    • 阿里云最知名,UCloud较小众

    • 了解两个不同体量的平台的使用,未来切换任何云平台都没问题

二、虚拟机集群搭建

        node1,node2,node3的信息说明

        (1)已经安装mysql5.7,hadoop3.3.0,hive,spark3,kafka

        (2)ip连接地址设置

        示例:node1 192.168.88.161

                  node2 192.168.88.162

                  node3 192.168.88.163

        (3)登录账号设置, 三台相同

三、集群/分布式

多台服务器参与运行

集群: 多台服务器共同完成相同的业务,就是一个集群.

分布式: 多台服务器共同完成不同的业务就是分布式.


安装部署层面说

  • 单机部署

    • 使用一台服务器安装所有服务

  • 集群部署

    • 使用多台服务器安装对应分布式服务

四、虚拟机拷贝

克隆虚拟机构建Hadoop集群过程详细。

五、数据文件传递

服务器之间传递数据,依赖ssh协议

http协议是web网站之间的通讯协议,用户可已通过http网址访问到对应网站数据

ssh协议是服务器之间,或windos和服务器之间传递的数据的协议。支持shell指令的传输

在linux中默认自带ssh客户端,可以使用ssh指令进行服务器连接

ssh免密登录

每次登录不需要再输入密码

分别在node1、node2、node3上执行如下命令

生成秘钥
ssh-keygen

拷贝秘钥
ssh-copy-id node1
ssh-copy-id node2
ssh-copy-id node3

基于ssh协议进行服务器之间的文件或目录的传输

使用指令scp

scp -r 本机文件或目录路径  目标服务器名:目标服务器路径

六、软件安装

  • tar.gz文件使用tar指令解压

        tar xvf   压缩包文件
        x 代表解压
        v 显示解压详情
        f 代表解压文件
  • 压缩

        tar cvf    压缩包名.tar.gz  文件或目录 

        安装解压后,使用java是会出现找不到java指令,原因是因为没有指定系统环境变量,默认java指令是在安装包的bin目录下,通过设置系统环境变量,就可以在任意位置使用java指令。

linux中系统环境变量在 /etc/profile文件中

echo 'export JAVA_HOME=/export/server/jdk1.8.0_241' >> /etc/profile
echo 'export PATH=$PATH:$JAVA_HOME/bin' >> /etc/profile
echo 'export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar' >> /etc/profile
source /etc/profile

七、Apache Hadoop概述

Hadoop的功能组件

HDFS分布式文件存储系统: 负责海量数据的存储工作

MapReduce分布式计算框架: 负责海量数据的计算工作

Yarn分布式资源调度工具: 负责分布式集群的资源调度工作

Hadoop发展

创始人: 道格·卡丁

Hadoop发行时间: 2008年

hadoop的发展受谷歌的三篇论文影响, 后被称为大数据发展的三驾马车

Hadoop版本

社区版: 开源免费

  • 优点: 更新速度快,技术新

  • 缺点: 兼容性差不稳定

商业版: CDH 将所有大数据相关组件都重写了一遍并进行了精细测试解决了兼容性问题和稳定性问题

  • 优点: 兼容稳定性好

  • 确定: 技术旧,收费

注意: 在企业级开发中我们使用的大多是商业版hadoop, CDH版本Hadoop在6.2.4版本之前是不收费的.

八、HDFS角色分配

NameNode(一般一主一备,排除单点故障):

  • HDFS系统的主角色,是一个独立的进程

  • 负责管理HDFS整个文件系统

  • 负责管理DataNode

SecondaryNameNode:

  • NameNode的辅助,是一个独立进程

  • 主要帮助NameNode完成元数据整理工作(打杂)

DataNode:

  • HDFS系统的从角色,是一个独立进程

  • 主要负责数据的存储,即存入数据和取出数据

九、Hadoop HDFS 下载路径

官方网址:https://hadoop.apache.org,当前使用最新的发行版:3.3.4版。

linux语句见前后几期描述,愿对读者有所帮助😊!

  • 32
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值