IT基础监控
文章平均质量分 80
xiaojinran
这个作者很懒,什么都没留下…
展开
-
zabbix故障自愈设计
zababix故障自愈设计概述在监控系统中,故障自愈是一个老生常谈的话题,他可以对于常见的运维故障,及时响应解决,减少人工干预,实现运维故障快速恢复。这里采用zabbix的脚本功能,配合触发器,可以实现故障发生时,手动点击运行故障恢复脚本,达到故障自愈的效果。故障恢复原理在监控系统中,故障事件是由于某些指标数据不符合正常的期望数据,由此便引发了一个故障事件,提醒用户及时关注和处理。针对于某些故障场景,恢复就比较简单,像服务停止,进程停止等,直接通过简单的命令行就可以恢复,针对一些复杂的故障,可能原创 2022-01-18 18:01:55 · 3220 阅读 · 0 评论 -
远程部署zabbix代理
概述在一个有代理的监控解决方案中,最多的工作量就在于部署以及更新代理,如何快速地完成代理程序的部署和更新,是监控解决方案中需要解决的一个难点,zabbix也是如此,官方的zabbix代理支持多种方式进行部署,如rpm、源码编译等,在这个解决方案中,采用的是源码编译后进行打包部署。原理实现zabbix代理的远程部署的原理是使用ssh协议,登录到目标服务器,在具备root的权限的前提下,创建zabbix监控用户和代理安装目录,以及必要的sudo的配置。将打包后的代理介质进行解压,使用zabbix监控用户进原创 2021-11-25 12:05:29 · 865 阅读 · 0 评论 -
使用PostgreSQL作为zabbix库,并将history和trend相关表迁移到TimescaleDB
概述本文通过实际操作,指导使用PostgreSQL作为zabbix的数据库,并将history和trend相关表迁移到TimescaleDB中。创建用户登录到PostgreSQL服务器,并切换到postgres用户下createuser --pwprompt zabbix根据命令行提示设置密码。创建zabbix数据库createdb -O zabbix -E Unicode -T template0 zabbix-O user 指定数据库owner。-E encoding 指定原创 2021-08-20 16:58:47 · 12950 阅读 · 0 评论 -
zabbix-agent2 监控 oracle 数据库
概述在zabbix5.0版本以上,新增了一个特性,那就是zabbix-agent2,这个是zabbix公司使用go语言重写的一个代理,可以完全替代原来的zabbix-agent。这个代理功能比原来的要强大的多,内置了很多个插件支持对基础资源的监控。这里我选用oracle的插件,来看看zabbix-agent2可以支持监控哪些指标。安装安装zabbix-agent2这里采用zabbix提供的官方repo,进行安装rpm -Uvh https://repo.zabbix.com/zabbix/原创 2021-05-12 08:43:49 · 35891 阅读 · 3 评论 -
初探zabbix_agent2 plugin
概述zabbix_agent2作为可以完全替代zabbix_agent功能的客户端,较以往的功能非常强大。采用go语言进行编写,插件化方式对监控的能力进行管理。一栈式代理能力,官方提供的5.2版本已经具有很强的监控能力zabbix_agent2指标在代理运行的情况下,我们可以执行zabbix_agent2 -R metrics 获取当前代理所支持的指标,以及指标的运行情况[Agent]active: truecapacity: 0/100tasks: 0agent.hostnam原创 2021-04-26 01:53:25 · 31499 阅读 · 0 评论 -
prometheus 语法初探
概述Prometheus是一套使用go语言进行编写的监控工具,专注于基础监控,默认仅保留15天的监控数据,15天的监控数据,已经足够运维人员去排查和分析运维故障。Prometheus有专门的PQL语言,可以对采集上来的指标进行多维度、函数分析,具有高度的指标定制化能力。本文将同大家一起学习Prometheus的PQL语法,验证并记录下过程PQL重要概念即时向量一个时间点某指标的值,如node_cpu_seconds_total{mode="idle"}区间向量指的是在某段时间原创 2021-01-10 08:52:09 · 23578 阅读 · 0 评论 -
prometheus服务发现-consul配置实战
概述prometheus 的抓取配置支持使用服务发现的组件从官网的docs来看,支持以下几种服务发现组件:https://prometheus.io/docs/prometheus/latest/configuration/configuration/#scrape_config # List of Azure service discovery configurations.azu...原创 2020-02-27 15:49:58 · 1397 阅读 · 0 评论 -
ipmitool获取服务器信息
#!/bin/bash#测试要求如下:# 1,所有的命令都通过ipmitool命令实现# 2,所有命令都在没有操作系统的情况下测试 HOST=$1USER=$2PASSWD=$3 function getinfo(){ # 1. 获取到服务器的网络配置信息 echo -e "\n\n=======Networking Configurations:" ipmitool...转载 2020-02-24 00:47:20 · 3458 阅读 · 1 评论 -
docker-zabbix 入口脚本解析
导读在zabbix的docker镜像中,docker容器的入口脚本docker-entrypoint.sh是一个非常优秀的脚本文件,一个文件实现了多个zabbix组件的安装和配置,其中有非常多的优秀代码函数值得我们去借鉴,本文主要以注释的方式,对涉及到的函数功能进行解析。从这个入口函数,我总结出一个优秀以及通用的docker镜像,入口脚本的编写是非常重要的,我认为一个优秀的docker镜像应...原创 2020-02-15 18:07:27 · 1301 阅读 · 0 评论 -
prometheus监控HAProxy
从Prometheus官方网站可以看到,官方网站已经有支持对HAProxy软件的exporter,我们从官方网站下载下来进行使用,也可以通过下载HAProxy的项目地址,通过编译进行部署。github项目地址https://github.com/prometheus/haproxy_exporter二进制可执行程序地址https://prometheus.io/download/原理...原创 2019-12-30 15:26:00 · 3401 阅读 · 3 评论 -
Linux指标采集思路
导读: 在监控Linux操作系统过程中,我们会使用什么样的方式来获取我们想要监控的指标呢?答案是丰富多样的,有的是通过脚本命令行,有的是通过操作系统底层开放的API接口,有的是通过/proc/下的各式各样的文件,来对数据进行采集。本文主要介绍通过/proc,文件系统下的各种文件来解析我们是如何完成对Linux指标数据的采集的。 熟悉Linux系统的运维同学们应该知道,我们常用的一些运维命令...原创 2019-12-30 01:24:33 · 396 阅读 · 0 评论 -
【官方文档译文】prometheus配置
Prometheus通过命令行标志和配置文件进行配置。尽管命令行标志配置了不可变的系统参数(例如存储位置,要保留在磁盘和内存中的数据量等),但配置文件定义了与抓取作业及其实例相关的所有内容,以及哪些规则文件加载。要查看所有可用的命令行标志,请运行./prometheus -h。Prometheus可以在运行时重新加载其配置。如果新配置格式不正确,则更改将不会应用。通过向SIGHUPPromet...翻译 2019-12-29 15:32:55 · 464 阅读 · 0 评论