- 博客(586)
- 资源 (10)
- 收藏
- 关注
原创 prometheus监控k8s的metric详解(第二版)第一章 kube-state-metrics(第二部分)pod、container
本文介绍了Kubernetes中Pod相关的关键监控指标,包括创建时间(kube_pod_created)、启动时间(kube_pod_start_time)和完成时间(kube_pod_completion_time)的时间戳指标,以及Pod基本信息(kube_pod_info)、所有者关系(kube_pod_owner)、所在节点IP(kube_pod_ips)和重启策略(kube_pod_restart_policy)等元数据指标。这些指标通过kube-state-metrics组件采集,包含clus
2026-02-03 07:00:00
362
原创 【mariadb】docker-compose 部署mariadb 主从复制(mariadb:11.5.2)
虽然和mysql大差不差,但是差别就是要踩的坑。
2026-01-29 07:00:00
499
原创 prometheus监控k8s的metric详解(第二版)第一章 kube-state-metrics(第一部分)apiserver、node、namespace、service、endpoint
【代码】prometheus监控k8s的metric详解(第二版)第一章 kube-state-metrics-第一部分-apiserver、node、namespace、service、endpoint。
2026-01-28 07:00:00
1111
原创 Prometheus监控k8s的metric详解(第二版)-01-scrape 指标抓取
1. `scrape_duration_seconds`1.1 job=kube-state-metrics1.2 job="kubernetes-apiservers"1.3 job="kubernetes-cadvisor"1.4 job="kubernetes-nodes"1.5 job="kubernetes-pods "1.6 job="kubernetes-service-endpoints"1.7 其他job2 `scrape_samples_scraped`3 `scrap
2026-01-27 08:49:28
561
原创 容器启动的mysql主从同步失败问题的快速解决
摘要 本文介绍容器化MySQL主从同步异常的快速修复方案。当从服务器异常关机导致主从不同步时,通过以下步骤解决:1)停止主从容器;2)备份从库data目录后,用主库data目录覆盖从库,并修改auto.cnf文件;3)启动主库并记录master状态;4)从库重新配置主从关系,使用CHANGE MASTER命令指定主库信息。最后验证Slave状态确认同步恢复。该方法适用于不确定同步中断时间点的场景,通过数据全量覆盖实现快速修复。
2026-01-21 14:00:00
155
原创 k8s 平台安装 Kyverno组件完整过程
1. 先决条件2.安装步骤2.1 在线安装2.2 离线安装1)下载chart2)准备镜像3)安装2.3 安装结果3. 测试3.1 创建规则3.2 验证规则
2026-01-21 07:00:00
603
原创 Prometheus报错:expected label name, got “INVALID“
k8s的label不合法造成Prometheus报错:expected label name, got “xxxxx“
2026-01-19 13:30:00
660
原创 K8S的ETCD集群证书详解及应用(etcd节点重建实例、etcd集群更换证书实例)
1. etcd 集群的证书1.1 证书说明1.2 查看证书1)根证书2)对等通信证书(Peer)3)服务端证书(Server)4)健康检查客户端证书(Healthcheck)1.3 生成证书1)根证书2)其他证书(手动创建)3)kubeadm创建(和手动二选一)2. 【实例1】重建其中一个节点
2026-01-19 07:00:00
593
原创 prometheus监控k8s的metric详解-06-etcd、storage、machine、process
如下边第2条数据表示:“etcd租约对象计数”(即,etcd_lease_object_counts) < 10 的 分布的次数。作用:“etcd中租约对象计数”(每次租约对象数量变化都会进行一个计数)这个操作的计数。
2025-12-11 10:04:11
953
原创 GPU节点接入k8s集群的处理
本文提供了一个在Kubernetes集群中集成和管理NVIDIA GPU节点的实用操作指南。主要内容包括:在Ubuntu节点上离线安装NVIDIA容器运行时工具链,并配置Docker和Containerd以支持GPU容器;安装NVIDIA Fabric Manager和DCGM等高级管理插件以启用完整功能;最后,将准备好的GPU节点加入Kubernetes集群,并通过部署官方的Device Plugin DaemonSet,使集群能够发现、调度和使用GPU计算资源。整个流程涵盖了从系统级配置到Kuberne
2025-12-10 14:00:00
515
原创 prometheus监控k8s的metric详解-05(kube apiserver、身份认证、tokens、node_authorizer、pod_security、聚合器)
【代码】prometheus监控k8s的metric详解-05(kube apiserver、身份认证、tokens、聚合器)
2025-12-10 07:00:00
1634
原创 prometheus监控k8s的metric详解-04(kubelet)
注意:它只是“统计每个pod中包含多少个容器的计数”这个的操作的计数,和pod中有多少个pod完全没有关系。既然是各个状态,为什么要标明running?chatgpt说是历史原因,这里我没有继续追问。虽然过滤条件区分pvc,但使用同一个存储设备的pvc值相同,说明它是存储设备的值。直译是:“PLEG重新列出队列”这个操作执行时间的统计行为,该行为执行次数的计数。说明:可以看到,一个pvc在所有节点上都有使用量的记录,且结果一样。值应都是1,应该没有什么意义。比它大1之外,都相等。
2025-12-03 13:00:00
859
原创 【实际操作】pod只允许运行在指定节点上
需求:给k8s的cn-beijing.192.168.12.84这个节点上打标签 project=crust,然后给该节点打污点,使得只有有这个标签的pod才可以运行在这个节点上,而其他容器都不可以运行在这个节点上。
2025-12-03 07:00:00
436
原创 prometheus监控k8s的metric详解-03(coredns)
本文介绍了CoreDNS的关键监控指标,主要包括缓存和请求两大类。缓存指标包含coredns_cache_entries(缓存条目数量,区分成功/拒绝查询)、coredns_cache_hits_total(缓存命中数)、coredns_cache_misses_total(缓存未命中数)和coredns_cache_requests_total(缓存请求总数)。请求指标主要为coredns_dns_requests_total(DNS请求总数),可按协议(TCP/UDP)、查询类型(A/AAAA/SRV)
2025-09-05 12:00:00
948
原创 prometheus监控k8s的metric详解-02-container部分
本文介绍了Kubernetes中监控CPU使用情况的几个关键指标:container_cpu_load_average_10s(10秒平均CPU负载)、container_cpu_usage_seconds_total(CPU总使用时间)、container_cpu_system_seconds_total(系统态CPU时间)和container_cpu_user_seconds_total(用户态CPU时间)。重点解析了CFS调度相关指标container_cpu_cfs_periods_total(CP
2025-09-05 07:30:00
1194
原创 prometheus监控k8s的metric详解-01-apiserver部分-05-其他
本文介绍了Kubernetes API服务器相关的缓存和客户端证书监控指标。在缓存部分,重点关注apiserver_cache_list_total指标,它展示了不同资源类型在缓存中的对象数量,如Pod(14个)、CustomResourceDefinition(10个)等。客户端证书部分,apiserver_client_certificate_expiration_seconds_count用于监控客户端证书过期检查频率,示例显示某节点10分钟内平均每秒发生0.6次检查;而apiserver_clien
2025-07-24 14:40:13
965
原创 ubuntu 22.04安装k8s高可用集群
本文介绍了在Ubuntu 22.04系统上为Kubernetes集群准备环境的详细步骤。主要内容包括:1) 服务器规划与系统信息配置;2) 关键环境准备操作:关闭交换分区和防火墙,配置主机名与hosts文件,设置网络路由和加载内核模块;3) 配置apt软件源并安装必要的依赖工具。文档提供了完整的命令操作流程,适用于搭建高可用Kubernetes集群前的系统环境准备工作,特别针对三节点master集群架构进行了详细说明。
2025-05-29 10:23:15
1785
原创 prometheus监控k8s的metric详解-01-apiserver部分-04-storage/events
prometheus监控k8s的metric详解-01-apiserver部分-04-storage
2025-05-07 13:00:00
1247
原创 《系统架构设计师教程(第2版)》第19章-大数据架构设计理论与实践-03-Lambda 架构
《系统架构设计师教程(第2版)》笔记,第19章-大数据架构设计理论与实践-03-Lambda 架构
2025-05-07 07:00:00
1013
原创 k8s集群GPU监控项说明
PCIe (Peripheral Component Interconnect Express)是一种高速串行计算机扩展总线标准,用于连接计算机主板与各种硬件设备(如显卡、固态硬盘、网卡等)NVLink 是 NVIDIA 开发的一种高速互联技术,用于在多个 GPU 之间或 GPU 与 CPU 之间传输数据。作用:表示 GPU 显存的时钟频率,单位MHz。
2025-04-21 14:40:13
554
原创 《系统架构设计师教程(第2版)》第19章-大数据架构设计理论与实践-02-大数据处理系统架构分析
《系统架构设计师教程(第2版)》笔记,第19章-大数据架构设计理论与实践-02-大数据处理系统架构分析
2025-04-10 12:00:00
718
原创 prometheus监控k8s的metric详解-01-apiserver部分-03-request
prometheus监控k8s的metric详解-01-apiserver部分-03-request
2025-04-10 08:00:00
1058
原创 《系统架构设计师教程(第2版)》第19章-大数据架构设计理论与实践-01-传统数据处理系统存在的问题
《系统架构设计师教程(第2版)》笔记,第19章-大数据架构设计理论与实践-01-传统数据处理系统存在的问题
2025-04-08 12:00:00
554
原创 prometheus监控k8s的metric详解-01-apiserver部分-02-apiserver flowcontrol(API 流量控制器)
prometheus监控k8s的metric详解-01-apiserver部分-02-apiserver flowcontrol(API 流量控制器)
2025-04-08 07:30:00
1204
原创 《系统架构设计师教程(第2版)》第18章-安全架构设计理论与实践-07-系统架构的脆弱性分析
《系统架构设计师教程(第2版)》笔记,第18章-安全架构设计理论与实践-07-系统架构的脆弱性分析
2025-03-18 07:30:00
1205
原创 系统架构设计师教程(第2版)》第18章-安全架构设计理论与实践-06-数据库的完整性设计
数据库完整性:指数据库中数据的正确性和相容性由完整性约束来保证完整性约束可通过DBMS(Database Management System)来实现,完整性约束作为模式的一部分存入数据库中。
2025-02-12 12:30:00
624
原创 deepseek本地使用(内网搭建ollama+deepseek+open-webui)
如果服务器没有外网,可以把它关掉,否则每次访问等超时会超级慢长。不一定在GPU服务器上,我是在另一台服务器上启动的。需要安装完NVIDIA驱动。
2025-02-12 07:00:00
1703
原创 《系统架构设计师教程(第2版)》第18章-安全架构设计理论与实践-05-网络安全体系架构设计
《系统架构设计师教程(第2版)》笔记。第18章-安全架构设计理论与实践-05-网络安全体系架构设计
2025-01-17 07:00:00
2265
原创 prometheus监控k8s的metric详解-01-apiserver部分-01-准入控制器、审计、委托
prometheus监控k8s的metric详解-01
2025-01-17 01:30:00
551
原创 《系统架构设计师教程(第2版)》第18章-安全架构设计理论与实践-04-信息安全整体架构设计
《系统架构设计师教程(第2版)》笔记,第18章-安全架构设计理论与实践-04-信息安全整体架构设计
2025-01-14 07:00:00
1001
原创 《系统架构设计师教程(第2版)》第18章-安全架构设计理论与实践-03-系统安全体系架构规划框架
《系统架构设计师教程(第2版)》笔记,第18章-安全架构设计理论与实践-03-系统安全体系架构规划框架
2024-11-19 12:30:00
1489
原创 《系统架构设计师教程(第2版)》第18章-安全架构设计理论与实践-02-安全模型
《系统架构设计师教程(第2版)》笔记,第18章-安全架构设计理论与实践-02-安全模型
2024-10-11 13:00:00
1407
原创 《系统架构设计师教程(第2版)》第18章-安全架构设计理论与实践-01-安全架构概述
《系统架构设计师教程(第2版)》笔记,第18章-安全架构设计理论与实践-01-安全架构概述
2024-10-11 07:00:00
856
原创 《系统架构设计师教程(第2版)》第17章-通信系统架构设计理论与实践-06-网络构建和设计方法
《系统架构设计师教程(第2版)》第17章-通信系统架构设计理论与实践-06-网络构建和设计方法
2024-10-09 07:00:00
1088
原创 《系统架构设计师教程(第2版)》第17章-通信系统架构设计理论与实践-07-通信网络构建案例分析
《系统架构设计师教程(第2版)》笔记,第17章-通信系统架构设计理论与实践-07-通信网络构建案例分析
2024-10-09 01:30:00
1318
原创 《系统架构设计师教程(第2版)》第17章-通信系统架构设计理论与实践-05-网络构建关键技术
《系统架构设计师教程(第2版)》笔记,第17章-通信系统架构设计理论与实践-05-网络构建关键技术
2024-09-23 13:30:00
990
原创 《系统架构设计师教程(第2版)》第17章-通信系统架构设计理论与实践-04-其他网络架构(存储网络架构、软件定义网络架构)
《系统架构设计师教程(第2版)》第17章 笔记,通信系统架构设计理论与实践-04-其他网络架构(存储网络架构、软件定义网络架构)
2024-09-23 07:30:00
1220
openssh-9.3p2升级包(openssh、zlib、openssl)
2024-07-29
Vue 2.0 路由示例(赤壁之战指挥官查询)
2022-05-30
kubeadm_1_15_11.tar.gz
2021-08-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅