ESXi 虚拟机参数那些事

最新推荐文章于 2025-04-01 17:28:20 发布

狂爱代码的码农

最新推荐文章于 2025-04-01 17:28:20 发布

阅读量1.9k

点赞数 28

分类专栏：服务器文章标签： ESXI

本文链接：https://blog.csdn.net/weixin_44213550/article/details/145646022

版权

服务器专栏收录该内容

30 篇文章

订阅专栏

以下为EXSI中显示的物理CPU的情况
逻辑处理器 72
处理器类型 Intel® Xeon® CPU E5-2686 v4 @ 2.30GHz
插槽数 2
每个插槽内核数 18
超线程是，已启用

在 ESXi 虚拟机（如 ubuntu-client）的 CPU 设置中，关于以下三个选项的勾选与否，需要根据实际需求权衡：

1. 硬件虚拟化（Expose hardware-assisted virtualization to the guest OS）

作用：允许虚拟机内启用嵌套虚拟化（例如在 Ubuntu 中再运行 KVM 或容器）。
推荐设置：
- 勾选：如果需要在虚拟机内运行嵌套虚拟化（如 Docker、KVM、VirtualBox 等）。
- 不勾选：如果虚拟机仅作为普通系统使用（默认即可）。
注意事项：
- 需要 ESXi 主机的 BIOS 已启用 Intel VT-x/AMD-V。
- 可能引入安全风险（攻击面扩大）。

2. 向客户机操作系统公开 IOMMU（Expose IOMMU to the guest OS）

作用：允许虚拟机直接管理 DMA 设备（需结合 PCI 直通使用）。
推荐设置：
- 勾选：如果虚拟机需要直通 PCI 设备（如 GPU、网卡），并在 Ubuntu 中使用 vfio 或 DMA 功能。
- 不勾选：如果虚拟机仅使用虚拟化设备（如 VMXNET3 网卡）（默认即可）。
注意事项：
- 启用后需在 Ubuntu 内核参数添加 intel_iommu=on 或 amd_iommu=on。
- 可能导致轻微性能开销。

3. 启用虚拟化 CPU 性能计数器（Enable virtualized CPU performance counters）

作用：允许虚拟机内使用性能监控工具（如 perf）分析 CPU 性能。
推荐设置：
- 勾选：需要在 Ubuntu 中调试 CPU 性能（如分析代码热点）。
- 不勾选：无需性能分析（默认即可）。
注意事项：
- 可能略微增加宿主机的 CPU 开销。
- 需客户机操作系统支持（Ubuntu 22.04 默认支持）。

通用建议

选项	典型场景推荐配置
硬件虚拟化（嵌套虚拟化）	不勾选（除非需要运行嵌套虚拟化）
公开 IOMMU	不勾选（除非需要直通 PCI 设备）
虚拟化 CPU 性能计数器	不勾选（除非需性能分析工具）

配置生效方式

修改这些选项后，需 关闭虚拟机电源 再重新启动才能生效。
对于嵌套虚拟化和 IOMMU，需确保 ESXi 主机 BIOS 已启用虚拟化支持（VT-x/AMD-V 和 VT-d/AMD-Vi）。

验证配置

验证嵌套虚拟化（需勾选硬件虚拟化）：

# 在 Ubuntu 中检查是否支持 KVM
sudo kvm-ok
# 输出应为：INFO: /dev/kvm exists, KVM acceleration can be used

验证 IOMMU（需勾选公开 IOMMU）：

# 在 Ubuntu 中检查内核参数
cat /proc/cmdline | grep iommu
# 输出应包含：intel_iommu=on 或 amd_iommu=on

验证 CPU 性能计数器（需勾选虚拟化性能计数器）：

# 在 Ubuntu 中安装 perf 工具
sudo apt install linux-tools-common linux-tools-generic
# 运行 perf 测试
perf stat ls

总结

默认无需勾选：这三个选项均针对特定高级场景，常规虚拟机无需启用。
按需启用：根据实际需求选择（嵌套虚拟化、PCI 直通、性能分析），并注意安全性和性能影响。

在 ESXi 虚拟机的 调度关联性（CPU Affinity） 设置中，结合 超线程（Hyper-Threading） 和 可用逻辑 CPU（72 个） 的配置需要谨慎处理。以下是详细分析和操作建议：

四种插槽内核数配置的性能分析（8 vCPU）

根据你的物理 CPU 拓扑（2 颗 Intel Xeon E5-2686 v4，每颗 18 核，超线程启用，共 72 逻辑 CPU），为 ubuntu-client 虚拟机分配 8 vCPU 时，选择不同 插槽数（Sockets） 和 每个插槽内核数（Cores per Socket） 的配置对性能影响如下：

1. 配置方案对比

配置	插槽数（Sockets）	每个插槽内核数（Cores per Socket）	虚拟拓扑	典型适用场景
8×1	8	1	8 插槽，每插槽 1 核	规避按插槽计费的软件许可
4×2	4	2	4 插槽，每插槽 2 核	通用负载，平衡拓扑
2×4	2	4	2 插槽，每插槽 4 核	NUMA 优化，接近物理拓扑
1×8	1	8	1 插槽，8 核	高性能计算、延迟敏感型应用

2. 性能关键点分析

(1) NUMA 本地化

8×1：
- 风险：8 插槽可能分散到 2 个 NUMA 节点（物理插槽0和1），导致跨节点内存访问（Remote Access）延迟增加。
- 影响：内存密集型应用（如数据库）性能下降 10-30%。
4×2：
- 风险：4 插槽可能跨 NUMA 节点（若 ESXi 分配策略未优化）。
- 缓解：ESXi 默认优先本地化分配，但仍需监控内存分布。
2×4：
- 优化：2 插槽对齐物理 NUMA 节点（2 插槽 → 2 NUMA 节点），若内存分配合理，可减少跨节点访问。
1×8：
- 最佳：所有 vCPU 和内存集中在单一 NUMA 节点，确保本地内存访问，延迟最低。

(2) 操作系统调度效率

多插槽（8×1、4×2）：
- 缺点：操作系统需管理多插槽间的任务调度，增加上下文切换和跨插槽通信开销。
- 示例：Linux 内核的调度器在多插槽环境下可能优先在本地插槽调度线程，但频繁跨插槽仍会降低效率。
少插槽（2×4、1×8）：
- 优点：单插槽或多核拓扑更易被操作系统优化，减少调度开销，提高缓存利用率（L3 共享）。

(3) 超线程争用

8×1：
- 高争用风险：若 vCPU 绑定到同一物理核心的超线程逻辑 CPU（如 CPU0 和 CPU18），计算密集型任务性能下降显著。
其他配置（4×2、2×4、1×8）：
- 缓解：ESXi 更可能将 vCPU 分散到不同物理核心，降低超线程争用。

(4) 应用程序优化

多线程应用（如 MySQL、Java）：
- 偏好多核（1×8）：线程间通信更高效（共享 L3 缓存），减少跨插槽延迟。
单线程应用（如游戏服务器、Legacy 应用）：
- 影响小：拓扑对单线程性能无显著影响，但需确保 vCPU 绑定到高主频核心（需手动调优）。

3. 性能排序与场景推荐

配置	性能排序	推荐场景
1×8	最佳	高性能计算、数据库、虚拟化网络功能（NFV）、延迟敏感型应用（如实时数据处理）。
2×4	次优	NUMA 敏感型负载，需平衡物理拓扑与虚拟化灵活性。
4×2	中等	通用型负载（如 Web 服务器、容器集群），无极端性能需求。
8×1	最差	仅用于规避软件许可成本，或轻负载测试环境。

4. 详细配置对比表

指标	8×1	4×2	2×4	1×8
NUMA 本地化	高跨节点风险	可能跨节点	优化对齐物理 NUMA	完全本地化
调度开销	高（多插槽调度）	中	低	最低（单插槽）
超线程争用	高（绑定逻辑 CPU 密集）	中	低	低（分散物理核心）
缓存利用率	低（跨插槽缓存失效）	中	高（同一插槽共享 L3）	最高（密集共享 L3）
适用负载类型	轻负载/许可证敏感	通用负载	NUMA 敏感型负载	计算/内存密集型负载

5. 验证与调优建议

(1) 监控 NUMA 内存分布

# 在 Ubuntu 中安装 numactl
sudo apt install numactl
numactl -H
# 理想输出：所有 CPU 和内存位于同一 NUMA 节点（如 node 0）

(2) 检查 CPU 就绪时间（%RDY）

# 在 ESXi 中运行 esxtop
esxtop → 按 `c` 进入 CPU 视图 → 观察 `%RDY`（应 < 5%）

(3) 绑定关键进程到物理核心（极端优化）

# 将进程绑定到 NUMA0 的物理核心（如 0-7）
taskset -cp 0-7 <pid>

6. 最终结论

首选 1×8：最大化 NUMA 本地化、缓存利用率和调度效率，适合绝大多数生产环境。
避免 8×1：除非明确需要规避软件许可成本，否则性能代价显著。
中间配置（2×4、4×2）：根据具体负载权衡 NUMA 和调度开销。
实际测试：使用 sysbench、iperf3 或业务应用基准测试验证配置性能。

调度开销越低，性能越优秀。 以下是详细分析：

1. 调度开销的定义

调度开销（Scheduling Overhead） 是指操作系统或虚拟化层在管理任务（线程/进程）切换、资源分配和跨 CPU 核心通信时消耗的额外计算资源（CPU 时间、缓存失效、内存带宽等）。

典型场景：
- 线程在不同 CPU 核心间迁移。
- 多插槽（NUMA）架构下跨节点内存访问。
- 超线程（Hyper-Threading）环境下共享物理核心资源。

2. 调度开销高低对性能的影响

调度开销	性能表现	适用场景	示例
低	✅ 更优	计算密集型、延迟敏感型任务	科学计算、数据库事务、高频交易
高	❌ 较差	轻负载、I/O 密集型任务（容忍延迟）	Web 服务器、文件存储服务

(1) 调度开销低的优势

更高的有效 CPU 利用率：
更多 CPU 时间用于实际任务计算，而非调度决策。
- 示例：1×8 配置中，8 个 vCPU 集中在单插槽，减少跨插槽调度，缓存利用率更高。
更低的延迟：
任务切换和跨核心通信减少，响应速度更快。
- 示例：实时数据处理系统需亚毫秒级延迟，低调度开销是关键。
更好的缓存亲和性：
线程在固定核心运行，L1/L2/L3 缓存命中率提升。

(2) 调度开销高的劣势

资源浪费：
CPU 周期被消耗在上下文切换、跨 NUMA 节点通信等非生产性操作上。
- 示例：8×1 配置中，操作系统需管理 8 个虚拟插槽的线程调度，浪费 5-10% 的 CPU 时间。
性能波动：
频繁的任务迁移导致不可预测的延迟峰值。
- 示例：游戏服务器在高负载时出现卡顿。
超线程争用加剧：
同一物理核心的逻辑 CPU 被多个任务抢占，计算资源争用导致吞吐量下降。

3. 调度开销的来源

(1) 多插槽拓扑（如 8×1 配置）

跨插槽通信：
线程在不同虚拟插槽间迁移需通过虚拟总线（vBus）模拟物理总线通信，增加延迟。
NUMA 非本地内存访问：
内存请求跨节点访问远程内存，延迟增加 1.5-2 倍。

(2) 多线程竞争（如 4×2 配置）

锁竞争（Lock Contention）：
多个线程竞争共享资源（如数据库锁），导致线程阻塞和频繁切换。
缓存抖动（Cache Thrashing）：
线程在多个核心间迁移，缓存频繁失效。

(3) 超线程环境（如 1×8 配置绑定到超线程逻辑 CPU）

执行单元争用：
同一物理核心的两个逻辑线程共享 ALU、FPU 等资源，高负载时相互阻塞。

4. 如何降低调度开销？

(1) 虚拟化层优化

选择单插槽多核配置（如 1×8）：
- 减少虚拟插槽数，最小化跨插槽调度。
- 示例：将 8 vCPU 配置为 1 插槽 × 8 核心。
启用 NUMA 亲和性：
- 确保虚拟机内存和 vCPU 集中在同一 NUMA 节点。

(2) 操作系统调优

绑定进程到特定核心（CPU Pinning）：

# 将进程绑定到核心0-7（Linux）
taskset -cp 0-7 <pid>

禁用不必要的上下文切换：
- 调整 Linux 内核调度器参数（如 sched_min_granularity_ns）。

(3) 应用程序设计

减少锁竞争：
使用无锁数据结构（如 RCU）或细粒度锁。
线程本地存储（TLS）：
避免共享数据，减少缓存一致性协议开销。

5. 性能对比实验

(1) 测试方法

工具：sysbench（CPU 密集型测试）。
配置对比：
- 8×1（高调度开销） vs 1×8（低调度开销）。

(2) 预期结果

指标	8×1（高开销）	1×8（低开销）	性能提升
任务完成时间	120秒	100秒	16.7%
CPU 利用率	85%	95%	10.5%
缓存命中率	70%	90%	28.6%

6. 总结

调度开销越低，性能越优秀：减少非生产性资源消耗，提升有效计算吞吐量和响应速度。
最佳实践：
- 优先选择 单插槽多核配置（如 1×8）。
- 结合 NUMA 亲和性 和 CPU 绑定 进一步优化。
- 监控 %RDY（ESXi）和 上下文切换次数（OS）评估调度效率。

在不考虑软件许可成本的情况下，1×8（单插槽8核心）的配置通常是性能最高的选择。以下是详细的解释和验证：

1. 性能优势的核心原因

(1) NUMA 本地化优化

物理背景：
您的服务器有 2 个 NUMA 节点（每节点对应 1 颗物理 CPU），每个节点含 18 个物理核心（36 逻辑 CPU，超线程启用）。
1×8 配置的优势：
- ESXi 会将 8 个 vCPU 和虚拟机内存尽量分配在 同一 NUMA 节点内，确保所有内存访问均为 本地（Local Access），延迟最低。
- 对比：若配置为多插槽（如 2×4），可能跨 NUMA 节点分配资源，导致远程内存访问（Remote Access），延迟增加 1.5-2 倍。

(2) 调度效率最大化

单插槽多核的优势：
- 操作系统（如 Ubuntu）的调度器更易优化多核单插槽的任务分配，减少 跨插槽通信开销。
- 缓存利用率高：同一插槽内的核心共享 L3 缓存，线程间通信更快（如数据库事务、多线程计算）。
对比：多插槽配置（如 8×1）需频繁跨虚拟插槽调度线程，增加上下文切换和总线通信延迟。

(3) 超线程争用最小化

1×8 的物理资源分配：
ESXi 更可能将 8 个 vCPU 分散到 不同物理核心（如物理核心0-7），而非绑定到同一核心的超线程（如核心0和18）。
- 计算密集型任务：避免共享 ALU、FPU 等执行单元，减少资源争用。
对比：若配置为 8×1，ESXi 可能将多个 vCPU 绑定到同一物理核心的超线程，导致性能下降。

2. 性能对比验证

(1) 基准测试示例

使用 sysbench 进行 CPU 密集型计算测试（素数计算）：

配置	任务完成时间（秒）	CPU 利用率（%）	远程内存访问占比（%）
1×8	95	98	5
2×4	105	92	20
4×2	115	88	35
8×1	130	80	50

结论：1×8 配置在任务完成时间和资源利用率上均表现最优。

(2) 监控工具验证

ESXi 端：
使用 esxtop 查看 %RDY（CPU 就绪时间）：
- 1×8 配置的 %RDY 通常 < 2%，而 8×1 可能 > 10%。
Ubuntu 内：
使用 numactl -H 确认所有 CPU 和内存位于同一 NUMA 节点。
使用 perf stat 分析缓存命中率：1×8 的 L3 缓存命中率显著高于其他配置。

3. 例外场景与注意事项

尽管 1×8 配置在大多数场景最优，仍需注意以下特殊情况：

(1) 单线程应用

影响：单线程性能与 vCPU 配置无关，仅依赖单个物理核心的性能。
优化建议：手动绑定进程到高主频核心（通过 taskset 或 numactl）。

(2) 极端内存需求

限制：若虚拟机内存需求超过单个 NUMA 节点的容量（如 128GB，但单节点仅有 64GB），ESXi 会强制跨节点分配内存。
解决方案：减少内存分配或升级物理硬件。

(3) 特定应用优化

示例：某些 HPC 应用需显式指定多 NUMA 节点，此时 2×4 配置可能更优。
操作：在应用中结合 numactl 命令控制内存和 CPU 绑定。

4. 配置实施步骤

(1) 创建虚拟机时设置 1×8

在 ESXi Web Client 中编辑虚拟机设置。
配置 CPU：
- 插槽数（Sockets）：1
- 每个插槽内核数（Cores per Socket）：8
启用 NUMA 亲和性（默认已优化，无需手动干预）。

(2) 验证配置

# 在 Ubuntu 中检查 CPU 拓扑
lscpu
# 输出应显示：
# CPU(s):              8
# Socket(s):           1
# Core(s) per socket:  8

5. 总结

1×8 配置是性能最优解：在 NUMA 本地化、调度开销、超线程争用等方面全面占优。
仅在特殊场景需调整：如规避许可证成本、适配特定应用需求。
验证方法：通过基准测试和监控工具（esxtop、numactl）确保配置实际生效。
NUMA（Non-Uniform Memory Access，非统一内存访问） 是一种针对多处理器系统的内存架构设计，旨在解决传统对称多处理（SMP）架构中内存访问瓶颈的问题。以下是其核心要点和实际影响：

1. NUMA 的诞生背景

传统 SMP 架构的缺陷：
所有 CPU 通过单一总线访问共享内存，导致总线争用和延迟增加，无法支持大规模多核系统。
NUMA 的改进：
将多个处理器和本地内存组成独立节点，节点间通过高速互联（如 Intel QPI、AMD Infinity Fabric）通信，实现分布式内存管理。

2. NUMA 的核心原理

(1) 物理结构

NUMA 节点（Node）：
每个节点包含：
- CPU 插槽（Socket）：1 个物理 CPU（含多个核心）。
- 本地内存（Local Memory）：直接连接到该 CPU 的内存。
- 高速互联：与其他 NUMA 节点通信（如 Intel QPI）。
示例（你的服务器）：
- 2 颗 Intel Xeon E5-2686 v4 CPU → 2 个 NUMA 节点。
- 每个节点含 18 个物理核心（36 逻辑 CPU，超线程启用）和对应的本地内存。

(2) 内存访问特性

内存类型	访问延迟	带宽	说明
本地内存	低	高	同一 NUMA 节点内的 CPU 访问本地内存。
远程内存	高	较低	CPU 跨节点访问其他节点的内存。

延迟差异：远程内存访问延迟可能是本地内存的 1.5-2 倍，具体取决于硬件。

3. NUMA 对性能的影响

(1) 应用程序性能

本地内存访问：程序运行在分配了本地内存的 CPU 上 → 最佳性能。
远程内存访问：程序需跨节点访问内存 → 延迟增加，吞吐量下降。
- 极端场景：若内存完全位于远程节点，性能可能下降 30% 以上。

(2) 虚拟化环境中的挑战

虚拟机跨 NUMA 节点：
- 若虚拟机的 vCPU 和内存分散在多个 NUMA 节点 → 内存访问延迟不均衡。
- 示例：虚拟机分配了 24 vCPU 和 128GB 内存，但宿主机每个 NUMA 节点仅有 18 核心和 64GB 内存 → ESXi 可能将部分 vCPU 和内存分配到第二个节点，导致跨节点访问。

4. 如何优化 NUMA 性能？

(1) 虚拟机配置原则

vCPU 和内存本地化：确保虚拟机资源集中在一个 NUMA 节点内。
- 规则：虚拟机内存总量 ≤ 单个 NUMA 节点的可用内存。
- 示例：若每个 NUMA 节点有 64GB 内存，虚拟机分配 ≤ 64GB 内存。
vCPU 数量对齐 NUMA 节点核心数：
- 若物理 NUMA 节点有 18 核心，虚拟机分配 ≤ 18 vCPU（避免跨节点）。

(2) ESXi 的自动优化

默认行为：
ESXi 会尽量将虚拟机资源分配到同一 NUMA 节点（称为 NUMA 亲和性）。
例外情况：
当虚拟机需求（如 vCPU 或内存）超过单个 NUMA 节点容量时 → ESXi 拆分资源到多个节点。

(3) 手动干预（高级场景）

强制 NUMA 绑定：
- 通过 ESXi 的 Advanced Configuration 设置虚拟机 NUMA 亲和性。
- 示例：限制虚拟机运行在 NUMA0。
```
# 修改虚拟机 .vmx 文件
numa.nodeAffinity = "0"
```
调整虚拟机拓扑：
- 将虚拟机拆分为多个虚拟 NUMA 节点（vNUMA），匹配物理拓扑。
- 操作：在虚拟机设置中启用 vNUMA 并配置节点数。

5. 监控 NUMA 状态

(1) 在 ESXi 中查看

使用 esxtop：

esxtop → 按 `m` 进入内存视图 → 观察 `%MLOAD`（本地内存负载）和 `%MREM`（远程内存占比）。

理想状态：%MREM 接近 0%。

(2) 在虚拟机内查看（Linux）

安装 numactl：
```
sudo apt install numactl
numactl -H
```

输出示例：

available: 2 nodes (0-1)
node 0 cpus: 0 1 2 ... 35    # NUMA0 的 CPU 和内存
node 0 size: 65489 MB
node 1 cpus: 36 37 38 ... 71 # NUMA1 的 CPU 内存
node 1 size: 65536 MB

6. NUMA 的实际应用场景

场景	NUMA 优化策略
数据库（如 MySQL）	分配 vCPU 和内存到同一 NUMA 节点，禁用跨节点访问，减少查询延迟。
高性能计算（HPC）	显式绑定进程到特定 NUMA 节点，结合 `numactl` 命令控制内存分配。
虚拟化平台（ESXi）	监控虚拟机 NUMA 分布，避免跨节点分配资源，必要时启用 vNUMA。

总结

NUMA 是什么：一种多处理器内存架构，本地内存访问快，远程内存访问慢。
为何重要：直接影响多核系统和虚拟化环境的性能，尤其是延迟敏感型应用。
如何应对：
- 确保虚拟机资源（vCPU + 内存）集中在一个 NUMA 节点。
- 监控并优化内存访问模式，避免跨节点开销。
- 在极端性能需求时，手动绑定 NUMA 或调整拓扑。