Prometheus优化指南：如何提升系统性能

DevOps实战派

于 2024-09-13 18:45:00 发布

阅读量1.4k

点赞数 29

分类专栏：运维监控文章标签： prometheus 运维监控

本文链接：https://blog.csdn.net/weixin_44268481/article/details/142203447

版权

Prometheus 是一个强大的开源监控系统，它被广泛应用于云原生环境中，特别是在 Kubernetes 和其他容器化基础设施中。然而，随着监控数据量的增长，系统本身的性能可能会成为瓶颈。如果不进行优化，最终将影响到整体系统的可用性。

本文将从多个维度介绍如何优化 Prometheus 以提升系统性能。

一. 优化数据存储

Prometheus 使用一个本地的时序数据库（TSDB）来存储所有的监控数据。优化数据存储可以帮助减少存储的开销并提高查询效率。

1. 配置数据保留策略

Prometheus 默认会保留15天的监控数据，但并不是所有环境都需要如此长的保留时间。根据监控需求，可以适当缩短数据保留时间。

--storage.tsdb.retention.time=7d

通过将数据保留时间从15天缩短到7天，可以显著减少存储的占用。对于长期数据存储，可以考虑将数据转储到远程存储系统，如 Thanos 或 Cortex，它们能够提供更高效的数据存储和压缩机制。

2. 调整块大小

Prometheus 的时序数据库通过块（blocks）来存储数据，默认每个块持续2小时的数据。可以根据具体环境调整块的大小，以平衡查询性能和存储效率。

--storage.tsdb.min-block-duration=2h

如果块的持续时间过短，Prometheus 会频繁地创建新块，增加 CPU 和 I/O 负载。相反，如果持续时间过长，查询可能变得缓慢。通常保持默认的2小时是比较合理的选择

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

DevOps实战派

关注关注

29
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【30天精通Prometheus：一站式监控实战指南】第2天：Prometheus从入门到实战：安装、配置详解与生产环境搭建指南

大唐有趣的小胡.

05-16

2090

本文档提供了Prometheus从入门到实战的详细指南。首先介绍了Prometheus的安装与配置步骤，包括版本选择、下载、解压和运行。接着深入解析了Prometheus的配置文件，特别是prometheus.yml和prometheus.service。最后，通过实战演练，指导读者如何在生产环境中搭建基础监控环境，包括用户创建、软件包解压与重命名、服务文件编辑与启动等关键步骤。此外，还提供了相关资料下载地址，方便读者进一步学习Prometheus监控技术。

【30天精通Prometheus：一站式监控实战指南】第24天：Prometheus数据存储与性能调优攻略，通过优化存储和查询性能来提升监控系统的整体效率

最新发布

大唐有趣的小胡.

03-02

1160

本文系统解析Prometheus数据存储机制与性能调优实践。从TSDB核心架构切入，深入剖析数据写入的WAL日志、内存块管理与读取时的并行查询机制。通过量化分析指标数量对存储/查询的影响，揭示配置参数陷阱与优化空间。在调优方法论部分，提供配置模板、外部存储选型对比及数据降采样实施代码，并给出分层存储策略（Hot-Warm-Cold架构）。最后通过压力测试工具链与容量计算公式，构建从理论到落地的完整调优闭环，助力实现千万级指标的稳定监控。附最佳实践参数表与故障熔断规则，直击高负载场景下的性能瓶颈。

参与评论您还未登录，请先登录后发表或查看评论

如何精简 Prometheus 的指标和存储占用

east4ming的博客

11-18

4058

前言随着 Prometheus 监控的组件、数量、指标越来越多，Prometheus 对计算性能的要求会越来越高，存储占用也会越来越多。在这种情况下，要优化 Prometheus 性能, 优化存储占用. 第一时间想到的可能是各种 Prometheus 的兼容存储方案, 如 Thanos 或 VM、Mimir 等。但是实际上虽然集中存储、长期存储、存储降采样及存储压缩可以一定程度解决相关问题，但是治标不治本。真正的本，还是在于指标量（series）过于庞大。治本之法，应该是减少指标量。有 2 种办法

prometheus_practice：包括Prometheus基础知识，性能优化和大量实战经验

02-02

prometheus_practice：包括Prometheus基础知识，性能优化和大量实战经验

prometheus-性能优化（扩展）

因上努力，果上随缘。但行好事，莫问前程。

04-27

1394

五、扩展 Prometheus在后续的性能扩展方面的策略 1、官方提供的联邦Federation allows a Prometheus server to scrape selected time series from another Prometheus server.。联邦提供两种不通的用例：1)从将数据从一个prometheus拉到另一个服务中；2)等级联邦，区分全局和局部prometheus 2、Thanos:Open source, highly available Prome...

Prometheus 性能调优-水平分片

east4ming的博客

11-26

1082

简介之前笔者有连续 2 篇文章： Prometheus 性能调优 - 什么是高基数问题以及如何解决？如何精简 Prometheus 的指标和存储占用陆续介绍了一些 Prometheus 的性能调优技巧，包括高基数问题的解决以及精简 Prometheus 的指标和存储占用。今天再介绍一个新的调优思路：水平分片。水平分片如果你正在面临的不是因为 label 导致的高基数问题，而是因为监控规模的急剧扩张导致需要被监控的 instance 非常庞大时，可以通过 Prometheus 的hashmod

【博客490】prometheus-----综合优化

qq_43684922的博客

09-12

1391

而做了 sum() 或其他聚合之后，得到的就不再是一个 Counter 了，举个例子，比如 sum() 的计算对象中有一个归0了，那整体的和会下降，而不是归零，这会影响 rate() 中判断 reset(归0) 的逻辑，从而导致错误的结果。也就是说，假设我们的 group_interval 是默认的 5 分钟，那么一条警报激活十几秒后立马就消除了，它的消除通知会在报警通知的 5 分钟之后才到，因为在发完报警通知之后，这个 Group 需要等待 5 分钟的 group_interval 才能进行下一次通知。

Prometheus 监控最佳实践：提升应用性能的关键技巧

AI天才研究院

12-31

1093

1.背景介绍在现代的微服务架构下，系统的复杂性和规模不断增加，传统的监控方法已经不能满足需求。Prometheus 是一个开源的监控系统，它具有高效的时间序列数据存储和查询能力，以及强大的 alerting 功能。这篇文章将介绍 Prometheus 的监控最佳实践，帮助您提升应用性能。 1.1 Prometheus 的核心概念 Prometheus 的核心概念包括：目标(targe...

Grafana与Prometheus协同作战：监控系统性能优化与配置指南

[Grafana与Prometheus协同作战：监控系统性能优化与配置指南](https://media.geeksforgeeks.org/wp-content/uploads/20230116155341/Prometheus-and-Grafanna.png) # 摘要本论文详细探讨了Grafana和Prometheus在...

prometheus-book：Prometheus操作指南

02-03

《Prometheus操作指南》这本书是针对Prometheus监控系统的详尽教程，旨在帮助用户深入了解和有效利用Prometheus进行系统监控和警报管理。Prometheus是一款开源的监控和警报工具，广泛应用于Kubernetes、DevOps以及...

MySQL连接池优化指南：提升并发性能的秘诀

[MySQL连接池优化指南：提升并发性能的秘诀](https://img-blog.csdnimg.cn/img_convert/f46471563ee0bb0e644c81651ae18302.webp?x-oss-process=image/format,png) # 1. MySQL连接池概述连接池是数据库管理系统中的...

Prometheus 2.0正式推出性能提升带来质的飞跃

weixin_33978016的博客

12-12

333

Kubernetes使复杂环境的管理变得容易，但为了确保可用性，对Kubernetes组件以及集群上运行的所有应用程序的运维拥有洞察至关重要。监控是保证良好生产环境的关键，这也是为什么Prometheus监控系统被开发的原因。Prometheus是云原生计算基金会（CNCF）负责的一个项目，在基础设施和应用程序监控方面迅速普及，当前正在迈出下一步。近...

prometheus 文件配置小技巧优化

后青春诗ing

02-14

1289

一、前言很久没看过监控，直到公司机器越来越多，项目越来越多，prometheus.yml 文件一直在增加显得很杂乱无章，这里优化了根据项目文件来改配置文件。二、优化 1、prometheus.yml 文件里 - job_name: 'jd-test' file_sd_configs: - files: ['/usr/local/prometheus/sd_config/test/host.yml'] refresh_interval: 30s 2、添加 sd_co

Prometheus operator 系统参数和监控数据抓取调优

不忘初心，方得始终

08-12

1209

抓取配置频率: 每 30 秒抓取一次。路径: 请求路径。端口: 使用端口9203tcp。协议: 使用 HTTP 协议。超时: 请求超时时长为 10 秒。标签重写使用labeldrop操作和正则表达式删除不需要的标签namespacecontainerendpointjobuser以减少标签的基数。样本限制配置限制每次抓取请求的样本数，以防止因单一抓取请求导致的过高开销。这份。

游戏服务器工程实践二：prometheus pushgateway 的性能优化

antsmall的专栏

01-06

1684

本文结合工作实践，给出了 prometheus pushgateway 性能差的解决办法。

Prometheus监控指标查询性能调优

爱奇艺技术产品团队

05-12

1336

01 背景在《SRE: Google运维解密》一书中作者指出，监控系统需要能够有效的支持白盒监控和黑盒监控。黑盒监控只在某个问题目前正在发生，并且造成了某个现象时才会发出紧急警报。“白盒监控则大量依赖对系统内部信息的检测，如系统日志、抓取提供指标信息的 HTTP 节点等。白盒监控系统因此可以检测到即将发生的问题及那些重试所掩盖的问题等”。为了完善系统的白盒监控，会员团队基于 Prometheu...

【Prometheus】Prometheus联邦的一次优化记录

Meepoljd的博客

05-25

587

Prometheus联邦的一次优化记录前言正文重新规整labels无用指标筛选前言现网环境下，我的Prometheus是使用了联邦特性的，这是因为监控的服务器存在于多个物理位置，同时服务器数量众多，综合考虑下才使用了联邦；不过因为当时服务器用的比较散，单台采集节点并不需要监控过多的服务器，大概也就在500台不到，因此性能问题一直都没出现，我也以为不会有什么坑。这段时间，针对数据中台集群要进行统一的node-exporter的指标采集，集群规模大概是2600台，因为一些特殊原因，最终使用1台联邦节点和2

打造云原生大型分布式监控系统(一): 大规模场景下 Prometheus 的优化手段

因上努力，果上随缘。但行好事，莫问前程。

06-06

1076

概述 Prometheus 几乎已成为监控领域的事实标准，它自带高效的时序数据库存储，可以让单台 Prometheus 能够高效的处理大量的数据，还有友好并且强大的 PromQL 语法，可以用来灵活的查询各种监控数据以及配置告警规则，同时它的 pull 模型指标采集方式被广泛采纳，非常多的应用都实现了 Prometheus 的 metrics 接口以暴露自身各项数据指标让 Prometheus 去采集，很多没有适配的应用也会有第三方 exporter 帮它去适配 Prometheus，所以监控系统我们通常

Prometheus优化及高可用

weixin_45112997的博客

04-25

1302

Prometheus优化及高可用