Devops 工具指南:使用 CloudWatch 和 OpsGenie 监控云基础设施

服务器崩溃和意外停机意味着用户沮丧和收入损失。因此,能够在 IT 基础架构中的任何问题升级和监控故障模式之前检测到这些问题,对于确保为最终用户提供无缝性能大有帮助。

但基础设施监控不仅仅是为了尽量减少中断。通过提供有关产品的深入见解,它将使你能够更好地了解其日常性能,并就其未来做出数据驱动的长期决策。

结合实际使用经验, 将重点介绍这两个工具Amazon CloudWatch 和 OpsGenie,它们的许多基本原理可以复制到市场上可用的其他监控服务中,各位读者可以根据实际情况进行变通。

什么是基础设施监控?

基础架构监控是指收集和审查有关基础架构状态和性能的数据的过程。

一些监控的指标包括:

  • 例如 CPU 或 RAM 的负载水平;
  • 服务器上运行的服务的状态(例如应用程序或数据库);
  • 某些服务中发生的错误数量(例如 NGINX 服务器上的 5xx 错误代码)。

收集的数据可以来自各种来源:从应用程序本身到托管它的计算机。收集这些信息是基础设施监控的基础,因为它允许管理员定义服务器的状态并配置警报以提供有关任何异常性能的通知。

通过收集大量数据,基础设施监控工具为管理员提供必要的洞察力,以保护业务和提前计划。

基础设施监控有什么好处?

持续的基础架构监控通过在问题升级和影响业务之前检测问题来帮助公司实现所需的产品性能、最大限度地提高效率并节省资源。

以下是公司需要知道的一些优势:

1. 快速响应事件

如果发生事故,operation team应该是第一个知道的人。如果希望能够在问题扩散并可能损害公司与用户的关系之前检测并解决任何问题,那么清楚地了解公司的基础架构至关重要。

无论公司面临的问题的性质如何,能够在问题出现后立即做出响应将大大有助于保护公司的业务。

2. 更好地了解公司基础架构

持续主动地监控基础架构可以让公司清楚地了解其每天的运行情况,并让运维人员能够监控故障模式并及早发现任何警告信号。

例如,如果应用程序突然开始表现低于预期,可视化监控数据可能会让你深入了解导致瓶颈的原因。

3. 做出明智的、数据驱动的决策

对基础架构的健康状况拥有清晰的、数据驱动的洞察力对于帮助了解其持续性能并不重要。最重要的是,它使你能够就长期 IT 基础架构战略和投资计划做出明智的决策。

4. 节省时间和金钱

如果想控制与基础设施相关的成本,公司无法不使用监控工具。它们提供了一种简单的方法来了解服务器计划如何满足你的实际需求。

无论一直未充分利用现有的云服务,还是即将需要更大、更昂贵的软件包,分的监控数据都将帮助管理预算。

5.让自己安心

24/7 全天候监控基础架构让相关人员高枕无忧。如果出现任何问题,相关人员将在同一时间收到通知,并可以立即着手解决问题。

分析监控数据还可以让大家深入了解未来可以预期的长期趋势。

基础设施监控中使用了哪些工具?

要开始基础设施监控,首先需要选择正确的工具。由于不同的系统需要不同的解决方案,因此值得四处看看,以确保选择具有最适合服务器集的功能的一个。

我们将它们大致分为两类:云原生和非原生。

1. 云原生解决方案

如果您使用云服务来托管您的基础架构,那么坚持使用提供商的本地解决方案通常是最佳选择。

本机工具易于设置,因为它们随您的云帐户一起提供并且易于维护。您无需担心您的工具托管服务器或在服务器上安装其他代理以获得大多数基本指标。

最受欢迎的云服务及其原生监控工具是:

这些工具通常会为我们提供一些hypervisor级别的基础数据(负责服务器虚拟化的工具)。但是,可以使用脚本或代理推送自定义数据。​ AWS 甚至提供了一种监控 RAM 和磁盘使用情况的服务。 ​

除了监控之外,云服务还可以使用 CloudTrail 跟踪 API 调用。这可以为您提供一些洞察,例如,对基础架构所做的更改、用户访问的资源等。

2. 非原生解决方案

除了云原生解决方案外,您还可以随时使用非原生工具。当您需要监控本地基础设施时,它们是一个不错的选择。

一些非本地解决方案需要在需要监控的每台服务器上安装额外的软件(客户端)。然后数据由代理发送到服务器(工具),服务器随后处理信息。一些最受欢迎的包括:

Amazon CloudWatch 和 OpsGenie 概述

1.Amazon CloudWatch

Amazon CloudWatch 是一种用于监控 AWS 资源的本机工具,例如 EC2、RDS、SQS、ElastiCache、SES 等。它允许您创建仪表板以可视化指标,其中可以包括 EC2 实例使用的 RAM 量或与 RDS 建立的连接数。

仪表板功能非常有用,因为它可以让您即时了解基础架构的状态。它会自动刷新,因此您可以将其显示在开发人员房间的电视屏幕上。Cloudwatch 中的示例仪表板

  • OK
  • INSUFFICIENT_DATA
  • ERROR

每当警报更改其状态时,我妈需要确定要采取的操作。

2. OpsGenie

OpsGenie 是一种事件管理服务,可与监控工具集成,提供有关基础设施状态的全天候通知。它由 SNS 触发——AWS 消息传递服务可以通过电子邮件、Webhook 或文本消息发送通知。

当你想要领先于中断并在问题升级之前解决任何问题时,像 OpsGenie 这样的工具将发挥关键作用。它将帮助你的团队建立随叫随到的时间表,并使每个人都了解谁应对出现的任何警报负责。

该平台的报告和分析工具还将帮助您深入了解警报并分析团队的工作量和绩效。

OpsGenie 简单统计

一个 OpsGenie 实例可以为多个团队工作,每个团队成员都可以查看时间表、修改它,或者只是查看过去的警报。

该工具可作为 Android 和 iOS 的本机应用程序使用。我们经常使用它,因为它支持推送和电子邮件通知以及手机通话。

该应用程序允许你管理你希望收到有关任何警报的通知的方式。例如,我们对其进行了自定义,以接收第一个通知作为推送通知。如果通知在三分钟内没有得到确认,应用程序将给值班工程师打电话。如果工程师不采取行动,OpsGenie 将升级流程并提醒其他团队成员。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
很抱歉,我无法提供或演示PDF文件。但是,我可以为您提供一些关于DevOps实践指南的信息。DevOps是一种软件开发运维的方法论,旨在通过自动化和协作来加快软件交付速度和质量。DevOps实践指南是一本书籍,提供了关于如何实施和应用DevOps原则和实践的指导。 以下是一些常见的DevOps实践指南: 1. 自动化:通过使用自动化工具和流程,例如持续集成/持续交付(CI/CD)工具和配置管理工具,来减少人工操作和减少错误。 2. 协作与沟通:促进开发团队和运维团队之间的合作和沟通,以便更好地理解需求、解决问题和共同努力实现共同目标。 3. 基础设施即代码:使用代码来定义和管理基础设施,例如使用工具如Terraform或Ansible来自动化基础设施的部署和配置。 4. 监控与日志:建立有效的监控和日志系统,以便实时监测应用程序和基础设施的性能和健康状况,并及时发现和解决问题。 5. 安全性:将安全性纳入整个开发运维过程中,包括代码审查、漏洞扫描、访问控制和安全审计等。 6. 弹性和可伸缩性:设计和构建具有弹性和可伸缩性的系统,以便能够应对不断变化的需求和流量。 7. 测试与质量保证:实施自动化测试和质量保证流程,包括单元测试、集成测试和端到端测试,以确保软件的质量和稳定性。 8. 持续改进:持续评估和改进DevOps实践,通过反馈和度量指标来识别问题和改进机会。 希望这些信息对您有所帮助!如果您有任何进一步的问题,请随时提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

春风化雨995

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值