目录
拷贝秘钥ssh-copy-id node1ssh-copy-id node2ssh-copy-id node3
一、云平台
云平台的使用是近些年大数据或IT开发从业者必备技能之一,也是电脑配置较低或使用M1、M2芯片Mac电脑同学的解决方案,所以,课程也会讲解基于云平台的环境方案。
云平台的选择上,课程讲解2个云平台:
-
阿里云平台的基础使用(阿里云国内最知名的云平台)
-
UCloud云平台的基础使用(小众云平台的代表)
掌握这两个平台,市面上各类云平台的使用基本就没有难度了
-
学习大数据需要有多台Linux操作系统环境,课程提供2套环境的内容:
-
基于VMware的本地虚拟机环境
-
基于阿里云、UCloud的云平台环境
-
-
为什么选择两套环境?
-
VMware、云平台都是开发人员必备技能之一
-
电脑配置较低或使用M1、M2芯片的Mac电脑,均无法完美的使用虚拟机,云平台是一个很好的替代方案
-
-
为什么选择2套云平台?
-
阿里云最知名,UCloud较小众
-
了解两个不同体量的平台的使用,未来切换任何云平台都没问题
-
二、虚拟机集群搭建
node1,node2,node3的信息说明
(1)已经安装mysql5.7,hadoop3.3.0,hive,spark3,kafka
(2)ip连接地址设置
示例:node1 192.168.88.161
node2 192.168.88.162
node3 192.168.88.163
(3)登录账号设置, 三台相同
三、集群/分布式
多台服务器参与运行
集群: 多台服务器共同完成相同的业务,就是一个集群.
分布式: 多台服务器共同完成不同的业务就是分布式.
安装部署层面说
单机部署
使用一台服务器安装所有服务
集群部署
使用多台服务器安装对应分布式服务
四、虚拟机拷贝
克隆虚拟机构建Hadoop集群过程详细。
五、数据文件传递
服务器之间传递数据,依赖ssh协议
http协议是web网站之间的通讯协议,用户可已通过http网址访问到对应网站数据
ssh协议是服务器之间,或windos和服务器之间传递的数据的协议。支持shell指令的传输
在linux中默认自带ssh客户端,可以使用ssh指令进行服务器连接
ssh免密登录
每次登录不需要再输入密码
分别在node1、node2、node3上执行如下命令
生成秘钥
ssh-keygen
拷贝秘钥
ssh-copy-id node1
ssh-copy-id node2
ssh-copy-id node3
基于ssh协议进行服务器之间的文件或目录的传输
使用指令scp
scp -r 本机文件或目录路径 目标服务器名:目标服务器路径
六、软件安装
-
tar.gz文件使用tar指令解压
tar xvf 压缩包文件 x 代表解压 v 显示解压详情 f 代表解压文件
-
压缩
tar cvf 压缩包名.tar.gz 文件或目录
安装解压后,使用java是会出现找不到java指令,原因是因为没有指定系统环境变量,默认java指令是在安装包的bin目录下,通过设置系统环境变量,就可以在任意位置使用java指令。
linux中系统环境变量在 /etc/profile文件中
echo 'export JAVA_HOME=/export/server/jdk1.8.0_241' >> /etc/profile echo 'export PATH=$PATH:$JAVA_HOME/bin' >> /etc/profile echo 'export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar' >> /etc/profile source /etc/profile
七、Apache Hadoop概述
Hadoop的功能组件
HDFS分布式文件存储系统: 负责海量数据的存储工作
MapReduce分布式计算框架: 负责海量数据的计算工作
Yarn分布式资源调度工具: 负责分布式集群的资源调度工作
Hadoop发展
创始人: 道格·卡丁
Hadoop发行时间: 2008年
hadoop的发展受谷歌的三篇论文影响, 后被称为大数据发展的三驾马车
Hadoop版本
社区版: 开源免费
优点: 更新速度快,技术新
缺点: 兼容性差不稳定
商业版: CDH 将所有大数据相关组件都重写了一遍并进行了精细测试解决了兼容性问题和稳定性问题
优点: 兼容稳定性好
确定: 技术旧,收费
注意: 在企业级开发中我们使用的大多是商业版hadoop, CDH版本Hadoop在6.2.4版本之前是不收费的.
八、HDFS角色分配
NameNode(一般一主一备,排除单点故障):
-
HDFS系统的主角色,是一个独立的进程
-
负责管理HDFS整个文件系统
-
负责管理DataNode
SecondaryNameNode:
-
NameNode的辅助,是一个独立进程
-
主要帮助NameNode完成元数据整理工作(打杂)
DataNode:
-
HDFS系统的从角色,是一个独立进程
-
主要负责数据的存储,即存入数据和取出数据
九、Hadoop HDFS 下载路径
官方网址:https://hadoop.apache.org,当前使用最新的发行版:3.3.4版。
linux语句见前后几期描述,愿对读者有所帮助😊!