编者按:龙蜥社区系统运维 SIG Contributor 刘馨蔚在 2023 龙蜥操作系统大会上分享了随着云原生的发展,给运维带来了极大挑战,并提到了现有运维产品的现状和不足。为了解决这些痛点,实现“零”运维,提出了两点解决方案。以下为本次分享全文:
(图/龙蜥社区系统运维 SIG Contributor 刘馨蔚)
01 当前运维的趋势和挑战
随着云原生不断的发展,给用户带来了非常多的便利,开发会变得更简单。同时大家不用再去感知机器、容器甚至系统底层的信息。相反,用户体验的提升也带来一些挑战和机遇。
应用的运维功能上移,系统运行的情况无法深入感知,导致系统运维无所适从。基于此,龙蜥社区系统运维 SIG 打造了一站式操作系统运维平台,融入了 SIG 成员的成功商用运维实践经验,能够帮助用户在统一平台上实现主机管理、系统监控、异常诊断、日志审计、安全管控等复杂操作系统管理 SysOM( System Operation&Maintenance)。SysOM 从两个方向去解决类似的问题,一是 SysOM 的应用观测方案,从应用视角主动观测、通过垂直往下的剖析,分析问题根因,针对 MySQL、应用调用关系追踪、Java 场景的观测方案;第二是针对大规模集群的智能监控方案,其中从容器角度、节点角度去评估集群的健康状态,并结合 AI 指标关联分析、智能化深度诊断,分析问题根因。