云原生系统故障自愈论文
文章平均质量分 95
云原生系统故障自愈论文
雨落俊泉
请支持一下置顶的开源笔记,觉得有用的话可以前往GitHub点个star
展开
-
A Contextual-Bandit Approach to Personalized News Article Recommendation-论文学习
A Contextual-Bandit Approach to Personalized News Article Recommendation-论文学习原创 2023-02-28 16:16:01 · 877 阅读 · 0 评论 -
【云原生系统故障自愈论文学习】—NENYA: Cascade Reinforcement Learning for Cost-Aware Failure Mitigation at Microsoft
NENYA: Cascade Reinforcement Learning for Cost-Aware Failure Mitigation at Microsoft 365原创 2023-03-16 22:08:27 · 291 阅读 · 3 评论 -
【云原生系统故障自愈论文学习】—How to Fight Production Incidents? An Empirical Study on a Large-scale Cloud Service
How to Fight Production Incidents? An Empirical Study on a Large-scale Cloud Service原创 2023-02-04 20:54:27 · 332 阅读 · 0 评论 -
【云原生系统故障自愈论文学习】—— Going through the Life Cycle of Faults in Clouds: Guidelines on Fault Handling
【故障检测论文学习】—— Going through the Life Cycle of Faults in Clouds: Guidelines on Fault Handling原创 2022-12-13 09:46:50 · 872 阅读 · 0 评论 -
Predictive and Adaptive Failure Mitigation to Avert Production Cloud VM Interruptions
当生产系统发生故障时,优先做法是迅速缓解它。尽管这很重要,但故障缓解是以被动和特定的方式进行的:只有在观察到严重症状后才采取一些固定操作。对于云系统来说,这样的策略是不充分的。在本文中,我们提出了一个预防性和适应性的故障缓解服务——Narya,它被整合在一个云生产环境,即微软Azure的计算平台中。Narya根据多层系统信号预测即将发生的主机故障,然后决定智能缓解操作**。其目的是避免虚拟机故障。Narya的决策引擎采取一种新颖的在线实验方法,不断探索最佳的缓解操作。Narya通过强化学习进一步增强了自原创 2022-10-12 22:25:39 · 1092 阅读 · 0 评论