中国内核开发者大会:云平台热迁移技术优化与实践

ceiling1lox

已于 2024-03-06 10:09:21 修改

阅读量679

点赞数 11

分类专栏：中国内核开发者大会文章标签：服务器云计算

于 2024-03-05 21:49:09 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46324627/article/details/136490986

版权

中国内核开发者大会专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文探讨了云平台中的热迁移技术，包括其基本逻辑、应用场景、业务要求以及行业痛点。重点介绍了如何通过评估脏页、负载和带宽来优化迁移过程，提升大带宽支持能力和停机阶段设备处理，同时解决TDP预构建的挑战。通过实战案例展示了这些优化措施的实际效果。

摘要由CSDN通过智能技术生成

云平台热迁移技术优化与实践

中国内核开发者大会云和服务器分论坛回放：https://live.csdn.net/room/Hansen666666/OzVSYgu0

能力价值

基本逻辑：

虚拟机在业务不断的前提下，实现计算/存储/网络迁移到新的虚拟机。
基本流程分为建立跟踪/迭代拷贝/停机迁移三步。

应用场景

固件更新
硬件维护
机房规整
资源调度规整
节能环保

业务要求

迁移成功率
迁移感知度 – （迭代拷贝/建立跟踪）持续影响
迁移感知度 – （停机迁移）停机影响

行业痛点

痛点	解法
迁移前：虚拟机带宽能力大，迁移成功率低	脏页、负载、带宽预估模型
迁移迭代时：热迁移能力能覆盖的规格与负载范围窄	大带宽支持能力
迁移迭代时：热迁移建立跟踪时业务感知大	TDP预构建能力
迁移完成时：热迁移停机时间	停机阶段设备处理优化

解决方案

脏页、负载、带宽评估

内存脏页评估：

内存带宽：始终大于等于真实值，采集无额外开销，会增加单核IPI中断/s。
page sampling：数值精确，采集存在低开销，且guest tdp页大小受限制。

磁盘脏页评估：

流量统计：始终大于等于真实值，采集无额外开销。

迁移带宽：

min{cpu_to_bandwidth(空闲负载), 源端空闲带宽, 目的端空闲带宽}
理论迁移时间 = (内存总量 + 磁盘总量) / (迁移带宽 – 内存脏页速率 – 磁盘脏页速率)

迁移时机：

服务器业务具备周期性原则，通过2周内数据来预估当日低负载。

迁移时评估：

实时带宽流量反馈机制

大带宽能力支持

大带宽多流multifd全平台支持 - multifd

内存迭代仍由热迁移线程主导
协议协商由主线程进行主导
发送线程作为网络资源池供主线程进行调用。
100G更高网络环境可基于DPDK实现发送线程。
提升特定cpu利用率下发送数据量，从而提升效率。
宿主机数据发送offload实现

大带宽多流multifd全平台支持 – 迭代保序

问题:热迁移数据流始终需要保证新一轮的迭代不能覆盖旧一轮的数据，因此实际应用中需要有机制去保证顺序。

方案：使用MULTIFD_FLAG_SYNC / RAM_SAVE_FLAG_EOS机制保序。

对比：

激活multifd后，内存不再需要额外拷贝。
基于DPDK实现multifd后，4C即可达到带宽极限。
协议层面差异

停机阶段设备处理优化

原生qemu热迁移完成后满足 pending_size < s->threshold_size && can_switchover后会直接触发停机，并且进入savevm_state逻辑。

问题1：Onflight io下刷时间不确定，受限于块设备能力。

问题2：网络切换有损，与外部路由无协同方案。

解决方案：存储：停机前设定半停机状态，此刻只停io，待pending io下刷完毕后一次性停机切换。网络：网络为实现无损耗切换，采用中继方案继续保持通信。

TDP 预构建能力

实际情况：

虚拟机为追求性能最大化，会采用最高级别TDP页表
进行脏页跟踪时，只能采用最低级别的TDP页表，追求细粒度。
热迁移阶段，存在重构TDP页表代价

挑战：内核kvm->mmu_lock属于mmu的一把关键spinlock，针对mmu的任何操作都会涉及到这把锁，热迁移的时候，会产生大量vcpu排队。

解决方案：异步线程，针对kvm->memslot/hpa_root，进行异步拆解，构建完整4K页表后统一通知vcpu替换TDP页表。

最终效果：除了KVM_REQ_MMU_RELOAD，源端不会产生额外退出。目的端在迁移激活后，不会产生额外退出。

脏页track过程中 – intel:PML，AMD:仍涉及退出

落地效果

实际落地的迁移数据

关注

11
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ceiling1lox CSDN认证博客专家 CSDN认证企业博客

码龄5年

16: 原创

110万+: 周排名

11万+: 总排名

1万+: 访问

: 等级

407: 积分

192: 粉丝

234: 获赞

10: 评论

246: 收藏

私信

关注

热门文章

分类专栏

最新评论

Linux系统编程：内存分配
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Linux系统编程：内存分配
CSDN-Ada助手: 恭喜您发布了新的博客文章！内容涉及Linux系统编程中的内存分配，非常有价值。希望您能继续保持创作的热情和努力，为读者带来更多深入的技术分享。或许下一步可以考虑扩展到更具体的内存分配算法或者在不同场景下的应用案例，这将会让读者受益匪浅。期待您更多的精彩内容，加油！
KVM Forum 2023:使用eBPF处理复杂的VM Exit
CSDN-Ada助手: 恭喜您在KVM Forum 2023上分享了关于使用eBPF处理复杂VM Exit的经验，这篇博客内容十分精彩！希望您能继续分享更多关于虚拟化技术的见解和经验，让更多人受益。或许下一步可以深入探讨如何优化虚拟机的性能，或者分享一些实践经验和案例分析，这将会是一个很有意义的创作方向。期待您更多的精彩内容！
内核虚拟化：虚拟中断注入
CSDN-Ada助手: 恭喜作者第15篇博客的发布！内容涉及内核虚拟化和虚拟中断注入，让我受益匪浅。对于这个话题，我个人还有一些疑惑，希望能够看到更多深入的分析和实践案例，或者是与其他相关领域的交叉讨论，以便更好地理解和运用这些知识。希望作者能够继续保持创作的激情，并且在未来的博客中不断丰富和拓展这个话题，期待更多精彩的内容！
中断虚拟化之APIC虚拟化
CSDN-Ada助手: 恭喜您撰写了第13篇博客，探讨了中断虚拟化之APIC虚拟化的主题，内容十分精彩！您的文章深入浅出，让读者对这一话题有了更深入的了解。希望您能继续坚持创作，分享更多有价值的内容给大家。或许在下一篇博客中，可以探讨一些具体的案例分析或者搭配一些实际操作演示，让读者更容易理解和实践。期待您的下一篇作品！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。