一、大数据方向
1、技术发展
计算机网络云计算大数据时代人工智能(本科:使用,研究生:推导,博士:创新)
2023年
大数据模型
人工智能元年
2、基础课程
hadoop
大数据基础
三大件:HDFS分布式存储、MapReduce并行计算框架、yarn分布式资源调度框架
hbase
Hadoop DataBase
分布式列式数据库
NoSQL
hive
数据仓库
兼容SQL标准
3、提高课程
Storm
流式计算
Spark
一栈式解决方案平台
批量数据处理
实时数据处理
支持语言:Java、Scala、Python、R、SQL
4、其它课程
NoSQL
Redis
MongoDB
消息队列
Kafka
数据采集
flume
爬虫
Java编程爬虫
Python编程爬虫
二、VMware软件安装与使用
1、VMware软件下载与安装
官网
https://www.vmware.com/products/workstation-pro.html
下载
VMware-workstation-full-17.0.0-20800274.exe
安装
略
查看安装是否成功
查看服务
win + R
设置兼容性
2、配置VM的网络
查看网关
查看DHCP
三、CentOS7安装与配置
1、下载镜像
下载地址
http://isoredirect.centos.org/centos/7/isos/x86_64/
东软
http://mirrors.neusoft.edu.cn/centos/7.9.2009/isos/x86_64/
阿里云
http://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/
确定版本(最小化)
CentOS-7-x86_64-Minimal-2009.iso
2、安装CentOS7
新建虚拟机
自动启动
按一下回车键,自动进入安装模式
硬盘分区并格式化
设置管理员密码
添加用户hadoop/hadoop
睁着眼睛,看着安装完成,重启
登录系统
3、配置网络
VMware软件的网络模式
桥接模式:虚拟机就是一台物理主机,占用太多的资源
NAT模式:虚拟机与宿主环境沟通实现互相访问,其它计算无法访问
主机模式:独立,无法访问
配置网卡
使用vi进行编辑
vi操作
命令模式
按一下ESC键
再按shift + ;
输入命令并回车
:set nu显示行号
:q!退出不保存
:wq退出并保存
编辑模式
按一下insert键,或,按一下A键插入模式
再按一下insert键覆盖模式
修改如下
保存并退出
按一下ESC,再按一下shift + ;
输入:wq并回车
重启网络网络
检测网络
4、安装常用工具
手动安装
自动安装(省事)
5、配置时钟同步
时钟同步
参照某一个时间服务器同步设置
并行计算时,需要分布式服务器时间不能产生毫秒级别的误差,否则无法计算
安装NTP
设置时区
6、设置自动登录
注意:
修改错误可能无法启动
后悔:创建快照
创建快照
编辑文件
修改如下
保存并退出
重启
7、关闭防火墙与远程登录配置
关闭防火墙
永久关闭seliux
修改文件
修改如下
保存并退出
远程登录配置
修改文件
修改如下
保存并退出
8、配置主机名与hosts
配置主机名
修改文件
修改如下
保存并退出
配置hosts
修改文件
修改如下
保存并退出
显示完整主机名
修改文件
修改如下
保存并退出
重启系统
9、配置win10 / win11的hosts
添加以下内容
vm
192.168.245.151 master
192.168.245.152 slave1
192.168.245.153 slave2
另存为
删除后缀名
覆盖文件
有同学出现管理员,或,其它提示信息,选择确定即可
验证网络
Win + R
10、使用SSH工具
下载
xshell
xftp
解压
略过
界面字体设置
12、快照
删除快照
重新创建新的快照