在当今的企业IT环境中,系统的稳定性和性能对业务的成功至关重要。随着技术的发展和云计算的广泛采用,企业越来越依赖于复杂的、分布式的架构。在这样的背景下,有效的监控解决方案变得尤为重要。观测云作为一种新兴的服务,提供了强大的监控、警告和故障诊断能力,帮助企业实现了对它们日益扩大的IT基础设施的完整视角。
观测云平台通过聚合来自服务器、数据库、应用程序和服务的指标、日志和追踪数据,提供了一个360度的视角全面监控。它能够即时捕获和分析数据,让企业可以快速响应系统性能问题或者异常行为。并且观测云平台支持允许用户根据自定义的性能基准设置警报。这些警报可以在问题发生之前通知团队,从而允许它们采取预防措施,减少系统的停机时间。设计有弹性,可以轻松与现有的工具和服务集成,同时它们的可扩展性确保了随着企业的成长,监控系统能够相应地扩展。
今天我们可以尝试一下如何配置监控告警。
前提
首先在这套环境是一个两台主机构成的k8s集群,在该集群中我们已经安装好datakit,这个agent是以一个daemonset方式在pod中运行。并且为了更方便地模拟业务环境,我这里部署了一套若依环境,来方便各方面的监控模拟。
容器指标监控告警
容器在观测云中都是默认采集,其中关于kube_pod指标集的采集需要打开一个开关
- name: ENV_INPUT_CONTAINER_ENABLE_AUTO_DISCOVERY_OF_PROMETHEUS_SERVICE_ANNOTATIONS value: "true"
打开后就可以看到kube_pod的数据
随后可以根据指标数据进行告警等
可以看到在事件中的相关告警事件
还可以点击相关tab,跳转页面进入扩展字段的查看查看详细信息
基于两轮后检测后没有任何超过阈值的结果会产生恢复事件
容器状态告警
对pod的存活状态进行监控是一项很常见的需求,基础逻辑就是凡是出现非running非secceeded、ContainerCreating以及PodInitializing的pod就进行告警,pod恢复正常也会出发恢复事件,并且在通知模板中体现是哪一个pod发生了异常。此处对于pod的异常状态的监控是基于对象数据kubelet_pod的status的状态进行告警的
此时我在集群中拉起了一个tomcat的pod做测试验证,首先修改tomcat的yaml中的镜像模拟pod异常状态
此时可以看到事件中产生了pod的告警
再对pod进行恢复,查看恢复事件
对于日志的告警
以上是对指标数据以及对象数据的告警,这里介绍一下关于日志的告警监控的配置,选择日志检测进行如下配置,这里监控的是部署的若依应用的日志,只要出现error的日志就会产生报警
此时我在若依中制造一些会产生error的动作以产生错误日志,发出告警
!
同样的也可以对RUM(用户访问检测)进行告警监控
对APM(应用性能检测)进行告警
这些告警都会在事件中显示出来,可以通过事件查看器进行查看
对于监控告警的通知策略也可以自定义设置,支持钉钉、企业微信、webhook等等方式,非常灵活
通过观测云,运维团队可以减少手动监控的负担,自动化日常任务,从而提高效率。智能警报和预警机制确保问题可以在影响用户之前得到解决。用户体验直接关系到企业的声誉和收入。观测云可以帮助企业监控应用程序的性能,确保用户界面响应迅速,加载时间最短。用户体验的改善不仅关系到企业的声誉,也直接影响其收入。观测云可以帮助监控应用程序性能,确保用户界面响应迅速,加载时间最小,从而提供流畅的用户体验。
结语
在数字化转型的浪潮中,企业监控已经不仅仅是IT部门的职责,而是整个组织的共同任务。观测云作为一种综合的监控解决方案,其强大的数据分析和管理功能为企业提供了前所未有的可视性和控制能力。通过实施观测云,企业可以确保其技术基础设施的健康,支持业务连续性,并在竞争激烈的市场中保持领先地位。