目录
参考:http://zhuanlan.51cto.com/art/201703/536043.htm
0.BIOS设置选项详细解释
参考:https://new.qq.com/omn/20180323/20180323A1W80U.html
1.下载vshpere
需要在vmare官网注册用户,然后才能进行下载
https://my.vmware.com/en/web/vmware/evalcenter?p=free-esxi6
2.将ISO制作U盘启动盘
参考:https://blog.csdn.net/zhayushui/article/details/87878988
3.安装exsi
注意:此安装过程必须为一整块硬盘,安装过程中会自动格式化和分区
参考:https://blog.51cto.com/13434336/2061124
有的机型安装exsi会卡停在loading /bnxtroce.v00
解决方法参考:https://vqiu.cn/esxi-6-7u3-installation/
exsi配置显卡直通模式
chrome浏览器登录虚拟化后的主机(登录显示器显示的相应IP地址)
先关闭启动的虚拟机电源
输入用户名和密码->主机->管理->硬件->PCI设备->找到对应的显卡设备,选择切换直通
内存->勾选:预留所有客户机内存(锁定)
参考:https://blog.csdn.net/zhanxix/article/details/71516316
参考:https://koolshare.cn/thread-152125-1-1.html
exsi开启ssh服务
登录vSphere Web Client,然后
管理->服务->ssh->右击开启服务
或者
主机->操作->服务->启用安全Shell(SSH)
修改主机ip
注意:以下修改马上生效,不用重启network
#先ssh登录到exsi主机
cd sbin
esxcfg-vmknic -l #查看vmknic信息
#修改vmknic的IP地址等
esxcfg-vmknic -i 192.168.100.120 "Management Network"
esxcfg-vmknic -i 192.168.100.120 -n 255.255.255.0 "Management Network"
#修改网关
esxcfg-route 192.168.100.1
升级exsi版本(可选项)
4.安装虚拟机
参考:http://blog.ilc.edu.tw/blog/index.php?op=printView&articleId=689632&blogId=25793
5.ssh登录虚拟机
参考:https://www.jianshu.com/p/91420fa105f6
service sshd start //启动 SSHD 服务
#如果出现Service不存在的情况,说明sshd服务未安装
#安装并启用sshd
sudo apt-get install openssh-server
service sshd start
6.安装显卡驱动
参考:https://blog.csdn.net/zhayushui/article/details/78541305
参考:https://www.mvps.net/docs/install-nvidia-drivers-ubuntu-18-04-lts-bionic-beaver-linux/
参考:https://itsfoss.com/ubuntu-lts-latest-nvidia-drivers/
可靠参考:http://christopher5106.github.io/nvidia/2016/12/30/commands-nvidia-install-ubuntu-16-04.html
重点参考:https://medium.com/better-programming/how-to-install-nvidia-drivers-and-cuda-10-0-for-rtx-2080-ti-gpu-on-ubuntu-16-04-18-04-ce32e4edf1c0
6.1.安装显卡系统环境准备
uname -r
sudo apt-get update
sudo apt-get upgrade
#sudo apt-get install xxx #安装upgrade提示的安装包
#创建文件:
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
#写入如下内容并save:
blacklist nouveau
options nouveau modeset=0
#再重新更新一下生成 kernel initramfs
$ sudo update-initramfs -u
$ sudo reboot //重启系统
#重启系统确认nouveau是已经被屏蔽掉
$ lsmod | grep nouveau
虚拟机配置重点:关机状态
1. 管理虚拟机->高级选项->添加参数:hypervisor.cpuid.v0 = FALSE
没有此配置,安装后会出现如下错误:找不到显卡驱动
2. 虚拟机中添加设备->PCI Nvidia显卡+Nvidia Audio
3. 主机关机重新引导
4. 虚拟机开机
5. 根据 推荐方法 安装CUDA(内部包含安装显卡驱动)
lspci | grep -i NVIDIA #查看是否有显卡硬件,有显卡硬件后才能安装显卡驱动
nvidia-smi
Unable to determine the device handle for GPU 0000:13:00.0: Unknown Error
dmesg #查看问题报告
问题:Unable to determine the device handle for GPU 0000:13:00.0: Unknown Error
解决方法:ESXI的UBUNTU16.04虚拟机安装PYCAFFE
6.2. 显卡驱动+cuda安装
7.wmare workstation远程桌面登录虚拟机
打开wmare workstation,菜单栏->文件->连接服务器->输入IP,用户名,密码->进入服务器简单界面
双击打开相应需要操作管理的虚拟机即可
添加新账户
https://www.jianshu.com/p/1e4afd31958c
useradd
userdel -r username
#推荐使用
adduser username
视频教程:https://www.youtube.com/watch?v=4iDuFkNxNu8
8. clone虚拟机
注意:
- 被克隆的虚拟机必须没有快照的状态下才行
- 关闭需要被克隆的虚拟机
8.1 浏览器手动Clone虚拟机(推荐)
参考:https://blog.csdn.net/zhangmingcai/article/details/87859339
主要步骤:
- 进入vSphere client,关闭需要被克隆的虚拟机
- 选中ESXi服务器宿主机,在右侧点击“配置”选项卡,选择“存储器”,右侧的存储器名称上点右键,选择“浏览数据存储”
- 新建文件夹"test"(这个名字自己随便命名),进入被克隆系统文件夹,把*.vmx、.vmxf、.vmdk、*.nvram文件拷贝到文件夹"test"下,复制过程还比较快的。
- 复制完成后,选择test文件夹*.vmx 右键,选择"注册到虚拟机"
- 在虚拟机清单中可以看到多了一个虚拟机,右击此虚拟机,选择“rename”,重命名此虚拟机为自己想去的名字,建议改成文件夹同名"test"(方便后期管理)
- 点击“启动虚拟机”后,会弹出虚拟机问题,选择I Copied it / 我已复制
8.2 命令行手动clone
参考:https://www.jianshu.com/p/a0b2c52a87e2
- 启用esxi的ssh: 登录esxi+web界面,在左侧导航器右击主机->服务->启用安全Shell(ssh)
- ssh登录esxi
- 找到虚拟机所在目录:假设已经存在虚拟机名为hadoop-1,那么在终端输入命令:
find / -name hadoop-1,
#可以看到虚拟机所在目录为:/vmfs/volumes/5dee862f-6cxxxxxx/
cd /vmfs/volumes/5dee862f-6cxxxxxx/
mkdir hadoop-1
cp hadoop-1/*.vmx hadoop-2/
cp hadoop-1/hadoop.vmdk hadoop-2/
cp hadoop-1/hadoop-flat.vmdk hadoop-2/
- 修改vmx文件
cd hadoop-2/
vi *.vmx
#用 hadoop-2 手动替换 hadoop-1相关字符
# 推荐
# 1. 替换 displayName 中的关键字符
# 2. 替换 sched.swap.derivedName 中的关键字符
vi
- esxi导入克隆完成的虚拟机:选着我已经复制虚拟机
8.3 通过OVF模板方式
画重点:注意
对于有多张显卡的多个虚拟机服务器,显卡直通模式的虚拟机时
- 启动虚拟机:必须先启动第一张显卡的虚拟机,然后再去启动其它显卡的虚拟机,否则会出现启动的虚拟机卡死,无法进入登陆画面。
- 关闭虚拟机:必须先关闭其它显卡的虚拟机,然后再去关闭第一张显卡的虚拟机,否则会出现关闭的虚拟机卡死,无法关闭虚拟机。
- 禁止更新intel-microcode,更新后会导致系统无法启动
# sudo apt install microcode #虚拟机禁止更新microcode,更新后会导致系统无法启动
dmesg | grep 'microcode' #查看虚拟机中的microcode微固件版本号
[ 0.145875] TAA: Vulnerable: Clear CPU buffers attempted, no microcode
[ 0.145875] MDS: Vulnerable: Clear CPU buffers attempted, no microcode
[ 0.913083] microcode: sig=0x50654, pf=0x1, revision=0x200005e
[ 0.913285] microcode: Microcode Update Driver: v2.2.
9 update exsi
重点参考:ESXI6.7升级7.0
reference:ESXi 6.7.0 通过命令行升级 6.7.0 Update3
使用ESXCLI更新到ESXi 6.7 Update 3b正确步骤
#查看可用的更新包
esxcli software sources profile list -d https://hostupdate.vmware.com/software/VUM/PRODUCTION/main/vmw-depot-index.xml | grep ESXi-6.7
#执行在线更新(不含TOOLS,防止 No Space Left On Device)
esxcli software profile update -p ESXi-6.7.0-20xxxxxx-no-tools -d https://hostupdate.vmware.com/software/VUM/PRODUCTION/main/vmw-depot-index.xml
#其中xxxxxx表示选定的版本号
#单独更新TOOLS
esxcli software vib install -v https://hostupdate.vmware.com/software/VUM/PRODUCTION/main/esx/vmw/vib20/tools-light/VMware_locker_tools-light_10.3.10.12406962-14141615.vib
#重启服务器
reboot