FusionSphere 6.5 服务器虚拟化运营
1、虚拟化 特性介绍
云操作系统架构
Tool/PV driver(虚拟机驱动)
Tools是虚拟机的驱动程序。
安装并启动Tools后,用户无需做任何操作,Tools即可提供以下功能:
1、为虚拟机提供高性能的磁盘I/0和网络I/0功能
2、为虚拟机提供虚拟硬件监控功能
- 获取虚拟机指定网卡IP信息
- 获取虚拟机内部各CPU利用率、内存利用率
- 获取虚拟机内各个磁盘/分区的空间使用信息
3、为虚拟机提供高级功能
- 在线调整虚拟机的CPU规格
- 创建虚拟机快照
- 虚拟机蓝屏检测
- 虚拟机与主机时钟同步
- 虚拟机网卡的高级功能,如Qos
- 自动升级虚拟机的驱动程序,如Tools驱动
为啥不直接默认集成tools?
1、OS并不是设计给VM使用。
2、tools不同虚拟化产品不一样,不兼容。
PVdriver前端后端各有一份
PV Driver(Para-Virtualization Driver),半虚拟化驱动。兼容一个新的操作系统,需要厂商提供配套的PV驱动程序。在虚拟机创建之后,您可以使用华为提供的PV Driver工具提高虚拟机磁盘和网络的I/O处理性能。另外,PV Driver工具还提供虚拟机运行状态监控功能,帮助您轻松维护。
VRM级联:多规模的数据中心可以通过多对VRN级连,实现无级扩容,最大可管理4,096物理节点、80,000虚拟机规模。
GPU硬件虚拟化
- CPU模拟GPU;
- GPU虚拟化:将物理GPU虚拟成GPU池子,VM可从中获取VGPU(VM安装vGPU驱动,目前使用)
- GPU直通:将物理GPU直接绑定给虚拟机使用,并且独占。(性能最大化)
- GPU共享:将物理GPU绑定给某个虚拟机,其他虚拟机将工作转交给GPU虚拟机实现,目前已经不使用。
内存复用
- 内存共享,写时复制:虚拟化之间同一物理内存,此时虚拟机做只读操作。如果需要对内存进行写操作,开辟另一内存空间,并且修改映射。
- 内存置换:虚拟机把常时间未访问的内存被置换到储存中,并建立映射,当虚拟机访问在置换回来。
- 内存气泡:Hypervisor通过内存气泡将VM的空闲内存释放给内存使用率比较高的VM。
默认是关闭的:
- 内存复用技术可能降低IO性能
- 内存复用不是凭空产生的
限制条件:
- 主机需配置足够的交换空间才能保证内存复用功能的稳定运行。
- 内存复用与SRIOV直通、GPU直通、NVME SSD盘直通特性互斥。直通设备的虚拟机必须内存独占,内存独占后虚拟机的内存不会被交换到交换空间。内存复用(非100%内存预留)的虚拟机不能直通设备。
技术特点:
华为虚拟化平台,通过智能复用以上三种技术将内存复用比提升至130%,VM密度提升130%。
数据有冷、有热。
- 20%的数据,在80%的时间会使用。热数据,内存中
- 80%的数据,在20%的时间会使用。冷数据,硬盘中
CPU架构
- 单CPU架构
- 多CPU架构
- SMP:多个CPU共享内存,会有资源竞争的问题
- MPP:CPU可设置为SMP模式、非SMP模式,在一定程度解决了SMP资源竞争的问题。但是带来资源分配不均衡。
- NUMA︰将服务器的多个CPU划分为多个节点,一颗CPU一个节点。每个节点内部会有多根内存条。节点内,CPU访问内存,性能最好,CPU还可以跨节点访问内存,但会有内存访问时延。
优化NUMA技术:
- HOST NUMA:由主机实现。在BIOS中开启,开启之后,可以让主机能够认识NUNA架构。HOST OS分配资源时,会优先分配同个节点的CPU、内存。
- GUEST NUMA:由hypervisor实现。在FC的集群中开启,开启之后,可以让虚拟机认识NUMA架构。VM分配资源时,会优先分配同个节点的CPU、内存。
RDM:存储资源裸设备映射,存储lun直接映射给VM。但是不支持迁移、HA等。
存储资源裸设备映射 (RDM)
快照技术
- 全拷贝快照
- 优点:性能不下降
- 缺点:占用更多空间。
- 写时复制cow
- 写数据时,判断原位置是否有数据,假如无数据,直接写入,假如有数据,把原数据读出,写入快照空间,最后把新数据写入原位置
- 优点:读性能没有下降
- 缺点:快照之后,由一次写,变为一次读两次写。导致写性能下降。
- 写时重定向row
- 写数据时,直接将新数据写入快照空间中。读数据时,如果快照空间有数据,直接读出,如果快照空间,再到原位置读取数据。
- 优点:写性能没有下降
- 缺点:快照之后,由一次读,变为,两次读。导致读性能下降。
VIMS虚拟集群存储文件系统(锁机制)
中断技术
CPU处理任务的机制。
由其他设备发起任务请求,CPU处理任务。
设备称之为中断源,CPU处理任务,就叫作中断。
传统I0设备,可能会把请求集中于CPU0,造成对CPUO压力较大。
自适应,变为多线程。
GE网卡是千兆,但是10GE就是万兆。
分布式虚拟交换机
OVS:linux内核自带的虚拟交换机。实现服务器内部的虚拟交换。
EVS:就是OVS的华为增强版。
- 由OVS的单线程变为EVS的多线程。
- 由OVS的内核态转变为EVS的用户态。
以上两个都是单机的虚拟交换机。只能实现主机内部不同虚拟机的通信。要实现跨主机的话,就需要使用DVS
DVS:分布式虚拟交换机。
DVS由VRM去逻辑组织不同主机上的EVS
交换机根据位置可以分为TOR、EOR
- TOR一般放置在服务器机柜的最上端。接入服务器。
- EOR一般会有专门机柜放置,汇总的作用。
端口组概念
端口组是一种策路设置机制,这些策略用于管理与端口组相连的网络。一个分布式交换机可以有多个端口组。虚拟机的虚拟网卡连接到分布式交换机的端口组,这样,即使与同一端口组相连接的虚拟机各自在不同的物理服务器上,这些虚拟机也都属于虚拟环境内的同一网络。
端口组,就是一组网络属性(vlanid\流量整形等)一样的端口的集合。
上行链路,DVS与CNA主机的物理网卡相连的逻辑链路。通过上行链路,可关联到物理网络。
面试题——DVS通信问题
- 同CNA主机,同DVS,同二层,服务器内部通信 VM1和VM2
- 同CNA主机,同DVS,不同二层,出服务器到网关再回来——需要三层通信“交换机” VM1和VM2
- 不同CNA,同DVS,同二层,出服务器到TOR(交换机)再回来 VM1和VM3
- 不同CNA,同DVS,不同二层,出服务器到网关再回来 VM1和VM3
- 不同DVS,不能通信
不同端口组可以设置同一个VLAN吗?
可以
端口组跟vlan的区别是啥?
答案没有关系。端口组会有vlanid ,普通是1个,中继可以是多个组可以相同vlanid
QOS
QOS:服务质量,在资源发生竞争时,保证重要业务资源可用。
CPU:
- CPU份额:定义多个虚拟机在竞争物理CPU资源的时候按比例分配计算资源
- CPU预留:定义了多个虚拟机竞争物理CPU资源的时候分配的最低计算资源
- CPU限额:控制虚拟机占用物理CPU资源的上限。
内存:
- 内存份额:定义多个虚拟机竞争内存资源的时候按比例分配内存资源
- 内存预留:定义多个虚拟机竞争内存资源的时候分配的内存下限
- 内存限额:控制虚拟机占用物理内存资源的上限。(6.3以前,也即是XEN架构,此处开关没有意义;6.3及以后的版本,也即KVM架构,当开启内存复用后,此处开关有意义)
磁盘:设置虚拟机每个磁盘的IO上限,以避免某个虚拟机的磁盘IO过大,影响其他虚拟机的性能
- 最大读出字节数(KB/s)
- 最大写入字节数(KB/s)
- 最大读写字节数(KB/s)
- 最大每秒读请求个数
- 最大每秒写请求个数
- 最大每秒读写请求个数
网络:提供带宽配置控制能力,QoS功能不支持同一主机上虚拟机之间的流量限制。
- 基于端口组成员接口发送方向与接收方向的带宽控制
- 基于端口组的每个成员接口提供流量整形、带宽优先级的控制能力。
虚拟机热迁移—更改主机
实现过程:
1、将虚拟机的配置信息、描述信息发送至目的主机。此时,会在目的主机上创建空虚拟机。2、通过内存分片+迭代迁移的方式,将初始内存、变化内存发送至目的主机。
3、当变化内存极小时,VRM会暂停源虚拟机的IO。
4、将最后一块变化内存迁移至目的主机。
5、停止源虚拟机,在目的端拉起虚拟机。
限制条件:
1、如果源主机和目标主机的CPU类型不一致,需要开启集群的IMC模式。
2、虚拟机的状态为“运行中”。
3、虚拟机未挂载总线类型为"IDE"的磁盘。
4、源目的主机使用共享存储。
5、源目的主机正常运行,资源足够。
6、源目的虚拟机要处于同—DVS。
7、虚拟机未挂载直通设备。
8、虚拟机未绑定设备。。。
目前IMC策略仅支持INTEL不同型号CPU的热迁移,其他厂商的CPU不能配置该功能。
IMC可以确保集群内的主机向虚拟机提供相同的CPU功能集,即使这些主机的实际CPU不同,也不会因CPU不兼容而导致迁移虚拟机失败。
如果虚拟机迁移失败,可能原因如下:
- 源主机和目标主机网络中断或网络不通。
- 目标主机无法访问虚拟机的磁盘。
- 目标主机故障、被重启或已进入维护模式。
- 源主机和目标主机的CPU类型不兼容。
- 源主机和目标主机的BIOS配置项配置不一致,例如"Advanced > Advanced Processor"中的CPU特性列表的配置不一致。
热迁移的应用场景?
1、硬件更换维护。
2、进行资源的负载均衡。
3、DRS、DPM(动态资源调度、分布式电源管理)
到底有没有中断业务?
有中断,但是只中断一瞬间,业务无感知,可认为做到了热迁移。
HA技术
HA:高可用。在虚拟机或者主机故障的情况下,在其他资源足够的主机,重新拉起虚拟机。
某些情况下,业务中断,通过高可用,保持业务继续运行。实现分钟级的恢复
限额条件:
1、源目的主机有共享存储
2、目的主机有预留足够资源
3、主机、集群、VM开启HA策略
4、虚拟机未有直通设备
5、虚拟机未有绑定设备
DRS和DPM
DRS:动态资源调度
DPM:分布式电源管理(关机是通过操作系统下电,开机是通过BMC上电)
自动化级别:手动(系统给出建议,确认后自动迁移)、自动
衡量因素:CPU、内存、CPU和内存
都必须要依赖于虚拟机热迁移。DPM还必须给主机配置BMC参数。
高级调度规则:
- 聚集虚拟机:列出的虚拟机必须在同一主机上运行。某个业务相关的虚拟机。
- 互斥虚拟机:列出的虚拟机必须在不同主机上运行。某些主备、集群的业务虚拟机。
- 虚拟机到主机:关联一个虚拟机组和主机组并设置关联规则,指定所选的虚拟机组的成员是否能够在特定主机组的成员上运行。
- 必须在主机组上运行:虚拟机组中的虚拟机必须在主机组中的主机上运行。
- 应该在主机组上运行:虚拟机组中的虚拟机应当(但不是必须)在主机组中的主机上运行。
- 禁止在主机组上运行:虚拟机组中的虚拟机绝对不能在主机组中的主机上运行。
- 不应该在主机组上运行:虚拟机组中的虚拟机不应当(但可以)在主机组的主机上运行。|
规则调度优先级:
- 第一优先级:规则类型为“虚拟机到主机",规则是“必须在主机组上运行"和"禁止在主机组上运行”的。
- 第二优先级︰规则类型为“聚集虚拟机"和“互斥虚拟机”的。
- 第三优先级∶规则类型为“虚拟机到主机”,规则是“应该在主机组上运行"和“不应该在主机组上运行"的。
迁移技术
- 更改主机:虚拟机热迁移
- 更改数据存储:存储热迁移
- 更改主机+数据存储:完整迁移
虚拟机存储热迁移:IO mirror 迭代迁移
- 首先在目的端创建一个相同的磁盘
- 将源、目的磁盘设置为双写(IO mirror)
- 通过迭代迁移技术将原磁盘数据拷贝到目的磁盘
- 待数据完全一样,断开源磁盘,虚拟机IO目的磁盘继续工作。
限制条件:
-
不支持迁移已挂载的“共享”类型的磁盘和链接克隆虚拟机的磁盘。
- 共享磁盘的VM,迁移走了,其他的VM没法用了!
- 链接克隆的虚拟机母卷是共享的,迁移走了其他的用不了了!
-
不支持非持久化磁盘的迁移。在条件允许的情况下,建议将虚拟机关闭后迁移。
- 非持久化磁盘:关闭电源或恢复快照后,丢弃对该磁盘的更改。(网吧清除卡)
-
不支持跨FusionStorage Block存储资源之间进行迁移。
-
必须源、目的存储关联至同个主机
-
目的存储资源足够
-
主机、存储状态正常
应用场景:
- 存储资源均衡
- 硬件维护
2、虚拟化 资源
存储资源
存储虚拟化模型
1、存储资源:告诉FC,添加的存储的类型、名称、IP。(IPSAN、NAS、FS)添加存储资源只能添加通过IP相互连接诶的设备(类似于FCsan是通过光纤连接通过扫描添加)
2、存储设备:存储资源中的管理单元。(LUN (IPSAN,FCSAN)、文件目录(NAS)、存储池(FS)、本地磁盘)这里的FCSAN类似于本地存储,通过扫描添加
3、数据存储:虚拟化平台中可管理、操作的存储逻辑单元。告诉FC,存储设备怎样使用(虚拟化数据存储、非虚拟化数据存储、存储裸设备映射)
添加存储的过程:以IPSAN为例
-
在FC上添加存储资源,关联主机,获取IQN号
-
在存储上,创建存储池,创建LUN,创建LUN组
利用IQN号,创建启动器,创建主机,创建主机组,创建映射 -
在FC上扫描存储设备,发现第2步映射的LUN
-
在FC上将扫描到的LUN,添加为数据存储,选择使用方式(非虚拟化、虚拟化、裸设备映射)
此处的虚拟化指的是传统虚拟化,非虚拟化指的是传统的非虚拟化+FS,裸设备映射指的是给单独某个虚拟机
存储虚拟化类型:
裸设备+逻辑卷 | 非虚拟化数据存储 |
---|---|
存储设备虚拟化 | Fusionstorage |
主机存储虚拟化+文件系统 | 虚拟化数据存储(VIMS(SAN)、EXT4(本地磁盘)、NFS(NAS)) |
非虚拟化,性能最好,但是不支持虚拟化特性(快照、链接克隆等)
FS,性能较好,支持一部分虚拟化特性(快照、链接克隆等)
虚拟化,性能较好,支持最多的虚拟化特性(快照、链接克隆、存储热迁移等)
注意事项:
- 使用IPSAN时需要在FusionCompute中导出主机的wWN号,用于后续在存储上配置主机启动器。在存储侧需要将存储设备通过链路关联到主机。
- 存储设备需要在FusionCompute中进行扫描来发现。
- 数据存储需要创建在指定的存储设备上,且一个存储设备只能创建一个数据存储。数据存储和主机关联,为主机提供资源,数据存储可以关联到多个主机,
- 一个主机也可以使用多个数据存储。
- 存储设备必须被添加为数据存储才能被使用。
- 数据存储可用于存放虚拟机磁盘、快照文件、镜像数据存储的大小依赖于存储设备的大小。
磁盘配置模式
普通磁盘:分配全部空间,置0全部空间,按需写数据 | 特点:创建速度最慢,使用性能最好 |
---|---|
普通延迟置零:分配全部空间,按需置0空间,按需写数据 | 特点:创建速度较快,使用性能适中 |
精简磁盘:按需分配空间,按需置0空间,按需写数据 | 特点:创建速度最快,使用性能最差 |
分配空间——》置0——》写入数据
磁盘类型
- 普通:普通磁盘只能单个虚拟机使用。
- 共享:共享磁盘可以绑定给多个虚拟机使用。
磁盘模式
从属 | 快照中包含该从属磁盘,更改将立即并永久写入磁盘。 |
---|---|
独立-持久 | 更改将立即并永久写入磁盘,持久磁盘不受快照影响。即对虚拟机创建快照时,不对该磁盘的数据进行快照。使用快照还原虚拟机时,不对该磁盘的数据进行还原。(纯写入) |
独立-非持久 | 关闭电源或恢复快照后,丢弃对该磁盘的更改。(网吧一清卡) |
虚拟机磁盘文件格式类型
固态磁盘文件:创建的时候,将磁盘全部数据块置0。 | 应用:普通磁盘 |
---|---|
动态磁盘文件:创建的时候,将磁盘头部、尾部置0,中间按需置0。 | 应用:普通延迟置零、精简磁盘 |
差分磁盘文件:本质上与动态磁盘文件一样。差分磁盘文件必须依赖于母卷。 | 应用:快照、链接克隆、非持久化卷 |
磁盘的总线类型
普通IDE:最多3块,插槽范围1~3。
高速IDE(VIRTIO):最多25块,插槽范围1~25。
SCSI:最多60块,插槽范围1~60。
虚拟机模板格式
虚拟机模板格式分为ova和ovf两种。
- 其中ova格式的模板只有一个ova文件。
- ovf格式的模板由一个ovf文件和多个vhd文件组成