Prometheus
文章平均质量分 71
实验是检验真理的唯一标准
CN-FuWei
云原生领域优质创作者,热爱开源、善于折腾,对新技术充满好奇心。
展开
-
prometheus之记录规则(recording rules)与告警规则(alerting rule)
记录规则允许您预先计算经常需要的或计算成本高昂的表达式,并将其结果保存为一组新的时间序列。查询预计算的结果通常会比每次需要时执行原始表达式快得多。这对于仪表板尤其有用,因为仪表板每次刷新时都需要重复查询同一个表达式。记录和警报规则存在于规则组中。组中的规则以固定的时间间隔按顺序运行,评估时间相同。记录规则的名称必须是有效的度量值名称。警报规则的名称必须是有效的标签值。原创 2023-10-09 15:33:29 · 1186 阅读 · 0 评论 -
PromSQL实用查询语句总结(一直更新)
【代码】PromSQL实用查询语句总结(一直更新)原创 2023-05-08 18:13:59 · 961 阅读 · 1 评论 -
kube-prometheus的TLS安全改造
修改kube-prometheus-stack的values.yaml文件。#修改kube-prometheus-stack的values.yaml文件。#修改完成后使用helm安装kube-prometheus-stack。# 修改readinessProbe就绪探针的协议为HTTPS。# 修改livenessProbe生存探针的协议为HTTPS。#将证书挂载到grafana容器内。#创建证书以及证书secret。#创建证书以及证书secret。修改grafana的cm配置。#创建证书secret。原创 2022-12-23 16:09:07 · 135 阅读 · 0 评论 -
kube-prometheus 监控ElasticSearch
创建es-exporer.yaml,请根据实际情况修改namespace创建exporter查看资源。转载 2022-12-02 16:35:30 · 661 阅读 · 0 评论 -
kube-prometheus 监控系统使用与总结
衆所周知,大数据産品作为底层平台,其运维监控一直是生産实践的痛点难点,且在稳定运行的基础之上,往往还需要对性能进行评估优化,所以其监控系统的建设显得尤为重要。Prometheus 作为云原生时代最火的监控软件,很多大数据组件或原生或以第三方插件 / exporter 的形式对 Prometheus 做了支持。我使用的大数据平台是基于 kubernetes 运行的,有部署灵活管理方便的优点,更容易与 Prometheus 进行结合。下面将对设计思路和技术实现进行阐述探讨。原创 2022-09-15 14:50:43 · 2073 阅读 · 0 评论 -
prometheus使用missing-container-metrics监控pod
Kubernetes 默认情况下使用 cAdvisor 来收集容器的各项指标,足以满足大多数人的需求,但还是有所欠缺,比如缺少对以下几个指标的收集:OOM kill容器重启的次数容器的退出码missing-container-metrics 这个项目弥补了 cAdvisor 的缺陷,新增了以上几个指标,集群管理员可以利用这些指标迅速定位某些故障。例如,假设某个容器有多个子进程,其中某个子进程被 OOM kill,但容器还在运行,如果不对 OOM kill 进行监控,管理员很难对故障进行定位。原创 2022-09-09 10:33:03 · 1496 阅读 · 3 评论 -
Prometheus 之 Alertmanager告警抑制与静默
Inhibition 抑制抑制是当出现其它告警的时候压制当前告警的通知,可以有效的防止告警风暴。比如当机房出现网络故障时,所有服务都将不可用而产生大量服务不可用告警,但这些警告并不能反映真实问题在哪,真正需要发出的应该是网络故障告警。当出现网络故障告警的时候,应当抑制服务不可用告警的通知。例如:当集群中的某一个主机节点异常宕机导致告警NodeDown被触发,同时在告警规则中定义了告警级别severity=critical。由于主机异常宕机,该主机上部署的所有服务,中间件会不可用并触发报警。...原创 2022-09-01 14:57:52 · 4169 阅读 · 0 评论 -
kube-operator-stack监控k8s集群
Operator是由CoreOS公司开发的,用来扩展 Kubernetes API,特定的应用程序控制器,它用来创建、配置和管理复杂的有状态应用,如数据库、缓存和监控系统。Operator基于 Kubernetes 的资源和控制器概念之上构建,但同时又包含了应用程序特定的一些专业知识,比如创建一个数据库的Operator,则必须对创建的数据库的各种运维方式非常了解,创建Operator的关键是CRD(自定义资源)的设计。CRD。...原创 2022-08-17 16:44:17 · 302 阅读 · 0 评论 -
prometheus-operator项目给prometheus页面添加鉴权
就绪探针和存活探针一定要加认证,否则容器运行异常。PS:有个别镜像pull不到,更换镜像地址即可。原创 2022-08-16 17:54:52 · 1106 阅读 · 2 评论 -
prometheus-operator+oauth-proxy+github添加鉴权
图片中的client-id、client-secret要记录一下,一会配置oauth-proxy 容器的时候会用到!原创 2022-08-16 17:42:38 · 572 阅读 · 0 评论 -
Prometheus Operator 常用指标
Operator 安装完成后会有很多默认的监控指标,一不注意就大量的报警产生,所以我们非常有必要了解下这些常用的监控指标,有部分指标很有可能对于我们自己的业务可有可无,所以可以适当的进行修改,这里我们就来对常用的几个指标进行简单的说明。...原创 2022-08-03 10:04:18 · 1576 阅读 · 3 评论 -
Prometheus Operator 修改数据存储时间
官方文档可以配置的说明实际上修改prometheus operator时间是通过retention参数进行修改,上面也提示了在prometheus.spec下填写#接下来进行填写,首先我们先下载operator,并将目录进行分类wget -P /root/ http://down.i4t.com/abcdocker-prometheus-operator.yaml.zipcd /root/unzip abcdocker-prometheus-operator.yaml.zipmkdir原创 2022-06-06 10:11:41 · 2270 阅读 · 0 评论 -
Prometheus Operator 持久化存储
这里我使用NFS客户端进行演示,关于其他后端存储引擎可以参考官网的storageclass。文章的大部分部署参数都是以前介绍过的这里不过多说明,不明白可以先看看pv pvc以及storageclass的理论。环境说明192.168.0.10 k8s-01192.168.0.11 k8s-02192.168.0.12 k8s-03192.168.0.13 k8s-04 192.168.0.14 NFS服务器首先部署NFS-Server,在192.168.0.14服务器安装NF原创 2022-06-06 10:11:22 · 914 阅读 · 0 评论 -
Prometheus Operator 监控etcd集群
除了prometheus operator自带的资源对象,节点以及组件监控,有的时候实际的业务场景需要我们自定义监控项确保有metric数据 创建ServiceMonitor对象,用于添加Prometheus添加监控项 ServiceMonitor关联metrics数据接口的一个Service对象 确保Service可以正确获取到metrics获取ETCD证书对于etcd集群,在搭建的时候我们就采用了https证书认证的方式,所以这里如果想用Prometheus访问到etcd集群的监控数据,原创 2022-06-06 10:10:19 · 376 阅读 · 0 评论 -
Prometheus Exporter 监控 Redis
Exporter简介Prometheus已经成为云原生应用监控行业的标准,在很多流行的监控系统中都已经实现了Prometheus的监控接口,例如etcd、Kubernetes、CoreDNS等,他们可以直接被Prometheus监控,但是大多数监控对象都没办法直接提供监控接口,主要原因有(1) 很多系统在Prometheus诞生前很多年就已经发布,例如MySQL、Redis等(2) 它们本身不支持HTTP接口,例如对于硬件性能指标,操作系统并没有原生的HTTP接口可以获取;(3) 考虑到安全原创 2022-06-06 10:10:01 · 639 阅读 · 0 评论 -
使用 Prometheus-Operator 监控 Calico
Calico 中最核心的组件就是 Felix,它负责设置路由表和 ACL 规则等,以便为该主机上的 endpoints 资源正常运行提供所需的网络连接。同时它还负责提供有关网络健康状况的数据(例如,报告配置其主机时发生的错误和问题),这些数据会被写入 etcd,以使其对网络中的其他组件和操作人员可见。由此可见,对于我们的监控来说,监控 Calico 的核心便是监控 Felix,Felix 就相当于 Calico 的大脑。本文将学习如何使用 Prometheus-Operator 来监控 Calico。原创 2022-06-06 09:59:40 · 704 阅读 · 0 评论 -
prometheus-性能优化(扩展)
五、扩展Prometheus在后续的性能扩展方面的策略1、官方提供的联邦Federation allows a Prometheus server to scrape selected time series from another Prometheus server.。联邦提供两种不通的用例:1)从将数据从一个prometheus拉到另一个服务中;2)等级联邦,区分全局和局部prometheus2、Thanos:Open source, highly available Prome...原创 2022-04-27 10:43:39 · 1209 阅读 · 0 评论 -
prometheus-k8s中安装部署
四、k8s中安装Prometheus安装方式较多,比如:GitEe:https://gitee.com/liugpwwwroot/k8s-prometheus-grafana/tree/master/prometheus; GItHub:https://github.com/prometheus-operator/kube-prometheus Helm:https://artifacthub.io/packages/helm/grafana/grafana4.1、prometheu...原创 2022-04-27 10:41:30 · 805 阅读 · 0 评论 -
prometheus-安装配置
二、安装和配置2.1、简化安装2.1.1、prometheus安装prometheus对时间要求比较高。因此ntp时间必须同步[root@master1 opt]# mkdir /opt/prometheus ;cd /opt/prometheus/[root@master1 prometheus]# wget https://github.com/prometheus/prometheus/releases/download/v2.24.0/prometheus-2.24.0.li原创 2022-04-27 10:35:20 · 922 阅读 · 0 评论 -
prometheus组件详解
一、简介1.1、监控系统概述注意:监控和告警是有区别的,注意区分监控系统设计: 评估系统的业务流程 、业务种类、架构体系。对于各个地方的细节需要一定程度的认知 分类出所需的监控项种类: 业务监控:QPS,PV,UV,SUCC_RATE,投诉率 ... 系统监控:CPU,MEM,Load,IO,Traffic ... 网络监控:Tcp Retran,丢包,延迟 ... 日志监控:各种需要采集的日志,一般是单独设计和实现 程序监控:嵌入程序内部,直接获取流.原创 2022-04-27 10:30:35 · 2697 阅读 · 0 评论 -
Prometheus安装部署及简单监控
IP 地址角色192.168.111.3Prometheus Server192.168.111.4node_exporter版本:测试通过系统:CentOS Linux release 7.4.1708 (Core)Prometheus:2.4.2.linux-amd64Alertmanager:0.15.2.linux-amd64node_exporter:0.16.0.linux-amd64软件包下载地址:https://原创 2022-04-25 17:44:08 · 478 阅读 · 0 评论