自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

sre救赎之路

稳定性、效率、成本管控、云原生、安全等领域循序渐进探索,专注于企业运维体系建设与探索。

  • 博客(827)
  • 收藏
  • 关注

原创 I/O 调度算法最佳使用指南

在 Linux 系统中,I/O 调度算法决定了磁盘请求的处理顺序,对磁盘性能影响显著。以下是不同场景下 I/O 调度算法的。

2025-05-27 16:32:02 593

原创 云主机磁盘IO参数优化

云主机的磁盘 I/O 优化需要结合云服务商提供的资源特性(如 EBS、云硬盘)和 Linux 系统参数进行调整。以下是针对云主机的。

2025-05-27 16:25:12 264

原创 io太高导致机器宕机无法ssh登录

当服务器因I/O过高导致宕机且无法SSH连接时,需要系统性排查和解决问题。

2025-05-27 16:15:10 292

原创 nginx 与openresty的区别

的 Web 服务器 / 反向代理工具,但定位和功能有显著差异。Nginx 和 OpenResty 都是基于。

2025-05-27 15:03:54 489

原创 Cookie 与 Session 的深度解析及核心区别

Session 与 Cookie 的协作安全性优化替代方案1)核心安全风险2)防护措施1)核心安全风险2)防护措施1)身份验证多层防护2)安全 headers 强化 配置防止点击劫持: 3)日志与监控当 Session 安全风险难以管控时,可采用JWT(JSON Web Token) 或OAuth等无状态认证方案:1)JWT 原理:2)OAuth 2.0:5. 安全配置示例(以 Nginx+PHP 为例)1)Nginx 配置强化 Cookie 安全2)PHP Session 安全

2025-05-27 14:41:12 513

原创 Nginx配置文件nginx.conf有哪些属性模块?

采用模块化结构设计,通过不同的上下文(context)组织配置指令。:配置 HTTP 服务器的全局参数,是 Nginx 最核心的模块。通过合理组织这些模块,可构建高性能、高可用的 Web 服务架构。:定义 Nginx 服务器整体运行的全局参数。:配置 URL 匹配规则,是最灵活的配置单元。:配置 Nginx 服务器与用户的网络连接。Nginx 的主配置文件。:配置虚拟主机,可在。Nginx 配置遵循。

2025-05-27 14:24:48 6

原创 Nginx目录结构有哪些?

通过。

2025-05-27 14:20:23 10

原创 Nginx的异步非阻塞机制是如何提高并发性能的?

Nginx 的异步非阻塞机制是其实现高并发性能的核心技术,通过以下维度显著提升系统吞吐量: 核心问题: 线程资源浪费:每个连接占用一个线程,线程休眠时资源闲置 上下文切换开销:大量线程导致 CPU 频繁切换上下文 并发限制:受系统线程数限制(如 Linux 默认最大线程数约 3 万) 2. 性能对比数据 模型 单服务器并发能力 资源利用率 延迟 同步阻塞 1000~5000 连接 低(线程休眠)

2025-05-27 14:16:07 8

原创 Nginx是如何实现高并发的?

Nginx 实现高并发的能力源于其独特的架构设计、事件模型优化及系统资源高效利用,以下从核心技术维度展开解析: sendfile 优化后: 优势: 减少 CPU 参与数据拷贝,降低 CPU 占用 减少内存带宽消耗,提升大文件传输效率 Nginx 配置: 3. TCP 参数优化 TCP_NOPUSH/TCP_NODELAY: :与 sendfile 配合,合并小数据包,减少网络报文 :禁用 Nagle 算法,降低实时数据传输延迟

2025-05-27 14:11:07 9

原创 如何解决Nginx中的惊群效应?

特性、优化事件模型和系统资源限制,可彻底解决 Nginx 中的惊群效应。这些优化措施能显著提升 Nginx 在高并发场景下的性能和稳定性,尤其适用于流量较大的 Web 服务器、API 网关和负载均衡器。CPU核心数 * 2。

2025-05-27 14:06:56 9

原创 如何验证Nginx中是否存在惊群效应?

通过系统调用跟踪、性能监控、配置对比测试等方法,可有效验证 Nginx 中是否存在惊群效应。在高并发场景下,启用。惊群效应会导致 Nginx 在高并发下性能下降,验证其是否存在对优化配置至关重要。特性是解决惊群问题的最佳实践,能显著提升 Nginx 的吞吐量和资源利用率。若配置 B 的性能显著优于配置 A,则证明存在惊群效应。统计上下文切换次数,惊群会导致大量不必要的上下文切换。调用,若存在惊群效应,会观察到大量无效的。特性的性能差异,验证惊群效应的影响。信息,分析 TCP 连接分配情况。

2025-05-27 14:03:32 25

原创 惊群效应是如何产生的?

是指在多进程 / 多线程编程中,当一个资源(如文件、网络连接)变为可用时,大量等待该资源的进程 / 线程会被同时唤醒,但最终只有一个进程 / 线程能获得资源,其他进程 / 线程会重新进入等待状态,造成系统资源的浪费。)、事件驱动模型(如 epoll ET 模式)和智能唤醒策略,可有效解决这一问题。现代 Web 服务器(如 Nginx、Redis)都已采用这些技术,实现了高性能的并发处理能力。惊群效应是多进程 / 多线程编程中常见的性能问题,特别是在高并发网络服务中。通过内核层面的优化(如。

2025-05-27 13:59:59 6

原创 Nginx怎么处理请求?

Nginx 通过事件驱动、异步非阻塞模型和精心设计的内存管理机制,实现了高效的请求处理能力,单节点可轻松支持数万并发连接,成为现代 Web 架构中不可或缺的组件。理解其请求处理流程,有助于进行性能优化和故障排查。Nginx 通过事件驱动、异步非阻塞模型和精心设计的内存管理机制,实现了高效的请求处理能力,单节点可轻松支持数万并发连接,成为现代 Web 架构中不可或缺的组件。Nginx 作为高性能的 Web 服务器和反向代理,其请求处理流程涉及多个核心组件和阶段。

2025-05-27 13:56:00 152

原创 BGP网络技术详解

边界网关协议(Border Gateway Protocol,BGP)是互联网中用于自治系统(Autonomous System,AS)之间交换路由信息的标准路由协议,属于路径矢量型路由协议。它的核心功能是确保数据包在不同 AS 之间高效、可靠地传输,同时维护网络的稳定性和可达性。

2025-05-27 11:29:26 424

原创 NAT技术详解

NAT 技术通过灵活的地址转换机制,在网络地址资源有限的情况下实现了高效的通信能力,至今仍是互联网基础设施中的重要组成部分。理解其原理有助于解决网络连接问题、设计安全的网络架构。随着 IPv6 的普及和网络技术的演进,NAT 技术也在不断发展,从单纯的地址转换向更复杂的网络功能扩展。

2025-05-27 11:16:23 476

原创 IPVS规则管理命令

IPVS(IP Virtual Server)是 Linux 内核中的高性能负载均衡模块,Kubernetes 通过。通过这些命令,你可以有效监控和调试 K8s 集群中的 IPVS 负载均衡配置,确保服务流量正常分发。在 IPVS 模式下自动生成和管理规则。

2025-05-26 23:58:27 321

原创 k8s 跨节点网络通信链路

Kubernetes(K8s)的跨节点网络通信是实现集群内 Pod、服务(Service)、节点之间通信的核心机制。实现 Service 层的流量调度,并利用节点网络协议栈和物理网络完成数据传输。理解这一链路有助于优化集群网络性能、排查通信故障,并根据业务需求选择合适的 CNI 插件和网络策略。:Pod 访问集群外的服务(如 AWS RDS、自建 MySQL)。:通过 Service 访问后端多个跨节点的 Pod(负载均衡)。:同一集群内,不同节点上的 Pod 直接通信。K8s 跨节点网络通信通过。

2025-05-26 23:35:14 546

原创 k8s 驱逐是由哪些组件发起的?

组件发起,它是节点上的核心代理,负责监控资源使用情况并执行驱逐操作。在 Kubernetes 中,Pod 的驱逐(Eviction)主要由。组件主导,基于资源阈值自动执行,旨在保障节点和集群的稳定性。理解这一机制有助于优化 Pod 资源配置,减少意外驱逐对应用的影响。Kubernetes 的驱逐机制由。

2025-05-26 23:25:23 337

原创 API Server如何集成自定义准入策略?

通过自定义准入策略,你可以实现环境特定的安全检查、资源标准化、成本控制等高级功能,增强 Kubernetes 集群的安全性和可管理性。允许你在资源创建、更新或删除时执行自定义验证和修改逻辑。在 Kubernetes 中,API Server 的。

2025-05-26 22:43:51 382

原创 CDN实现原理及架构详解

CDN 通过。

2025-05-26 21:58:27 713

原创 uniq 命令详解及实用案例

(英文全称:unique)是 Linux/macOS 系统中用于处理。掌握这些用法后,可快速解决日志分析、数据清洗、词频统计等实际问题。:对 CSV 文件按第 2 列(部门)去重,保留每行完整数据。:统计日志中重复的 IP 地址及其出现次数(需先排序)。:统计文本中每个单词的出现次数并按频率排序。:从用户列表中找出仅注册一次的用户。命令对数据去重或统计重复次数。:对已排序的文件去除连续重复行。:对混合大小写的单词去重(如。:找出重复的邮件地址。:忽略行首时间戳(如。

2025-05-26 18:50:01 506

原创 sort命令详解及使用案例

sort是 Linux 系统中用于文本排序的基础命令,功能强大且灵活。

2025-05-26 18:38:46 652

原创 awk命令中NR是什么含义?

在 AWK 中,NR是一个内置的,用于表示当前处理的记录(通常是行)在。

2025-05-26 18:23:47 112

原创 netstat命令参数详解

netstat是 Linux/Unix 系统中用于显示网络连接、路由表、网络接口统计等信息的强大工具。

2025-05-26 17:59:14 229

原创 uptime命令详解

uptime是一个常用的 Linux/Unix 命令,用于显示系统的和。uptime。

2025-05-26 16:57:33 175

原创 K8s Pod故障排查实录:一次诡异的启动失败

配置管理规范所有生产环境配置变更需经过审批实施配置版本控制# 示例:将ConfigMap纳入版本控制防御性编程环境变量读取必须校验关键参数设置合理默认值监控增强添加配置变更的审计日志测试建议单元测试覆盖异常配置场景E2E测试中使用错误配置验证系统容错。

2025-05-25 22:45:36 303

原创 如何避免Pod被驱逐?

通过以上措施,可以显著降低 Pod 被驱逐的风险,保障关键业务在 Kubernetes 集群中的稳定性。使用工具(如 kube-bench)检查 Pod 是否符合资源配置最佳实践。在 Kubernetes 集群中,避免 Pod 被驱逐需要从。在测试环境中通过负载工具(如。)模拟资源耗尽,验证驱逐策略。

2025-05-25 22:38:13 777

原创 k8s 驱逐机制详解

Kubernetes(K8s)的 ** 驱逐机制(Eviction)** 是保障节点资源稳定的核心功能,用于在节点资源紧张时主动驱逐 Pod,避免节点崩溃或影响关键组件运行。K8s 通过监控节点资源使用情况,当达到 ** 驱逐阈值(Eviction Thresholds)** 时触发驱逐。通过理解驱逐机制的原理和配置方法,可以有效管理节点资源,保障 K8s 集群的稳定性和可用性。通过 Kubelet 配置文件(如。K8s 根据 Pod 的资源请求(

2025-05-25 22:32:49 961

原创 kubelet进程资源限制

Kubelet 作为 Kubernetes 节点的核心组件,负责管理容器生命周期和节点资源。通过合理配置 Kubelet 进程的资源限制,可以有效防止因 Kubelet 资源过度使用导致的节点不稳定问题,提升集群整体可靠性。

2025-05-25 22:25:55 157

原创 Kubelet CPU和内存占用过高导致pod被驱逐问题排查与处理

Kubelet 资源占用过高导致 Pod 被驱逐通常是由资源配置不合理、节点负载过高或 Kubelet 自身性能问题引起的。通过紧急处理、系统排查、临时缓解和长期预防措施,可以有效解决问题并提升集群稳定性。建议在生产环境中建立完善的监控和告警机制,及时发现并处理类似问题。

2025-05-25 22:18:52 292

原创 一次阿里云k8s集群pod访问外部公网域名报:Name or service not known问题排查与处理

阿里云 Kubernetes 集群 Pod 无法访问外部域名通常由 DNS 配置、网络策略或云厂商特定限制导致。建议优先使用阿里云官方推荐的网络配置方案,并建立完善的监控机制。检查节点dns配置,确认是否包含转发dns ip,并且测试dns ip连通性,包含网络连通性和端口连通性。先确认k8s内部dns解析功能是否可用,是否针对所有外部域名均无法正常解析还是仅部分域名无法解析。)通常是由于网络配置、DNS 策略或安全组限制导致的。检查coredns是否正常配置外部转发dns,此为外部域名能否解析的关键。

2025-05-25 20:50:53 719

原创 半链接队列与全连接队列

全连接队列的大小取决于:min(backlog, somaxconn) . backlog是在socket创建的时候传入的,somaxconn是一个os级别的系统参数半连接队列的大小取决于:max(64, /proc/sys/net/ipv4/tcp_max_syn_backlog)。不同版本的os会有些差异。

2025-05-25 12:27:06 791

原创 kafka消费者组发生rebalance的日志

通过系统分析Rebalance日志,可以快速定位消费者组稳定性问题的根本原因,建议结合监控系统建立Rebalance的预警机制。4. 14:25:30 - 网络超时触发异常。1. 14:23:45 - 新消费者加入。2. 14:23:45 - 分区回收开始。3. 14:23:45 - 分区重新分配。

2025-05-24 22:41:41 125

原创 kafka 消费者组因 max.poll.interval.ms太小导致消费者组频繁发生rebalance问题排查与优化

当 Kafka 消费者组因太小导致频繁 Rebalance 时,核心问题是消费者处理消息的速度超过了该参数允许的最大间隔,导致 Coordinator 认为消费者 “失联” 而触发重平衡。

2025-05-24 22:32:32 814

原创 kafka消费者组频繁发生rebalance原因剖析与优化

通过以上步骤,可逐步定位并解决 Rebalance 频繁的问题。重点排查消费者节点稳定性、处理耗时、参数配置一致性,以及分区 / 实例数的匹配关系。Kafka 消费者组频繁发生 Rebalance(重平衡)会导致消费暂停、性能波动,甚至消息重复消费。

2025-05-24 22:18:41 450

原创 一次kafka 消费者组因 max.poll.interval.ms配置太小导致消费者组频繁rebalance问题跟进。

调整后针对消费者集群进行批量重启,重启后,消费能力较调整前迅速上升,原积压的消息大概在20分钟左右被消费完毕。确认是因为max.poll.interval.ms参数配置太小导致消费者集群触发rebalance。整个业务故障从触发到恢复大概持续了40分钟左右,所幸此类积压消费非强实时消息,因此业务影响较小。排查消费者集群并无节点异常宕机。另外查看分区消息写入速率是日常消息写入速率的1.5倍左右。

2025-05-24 22:09:01 193

原创 面对网站访问量激增的情况,你会采取哪些措施进行性能优化?

面对网站访问量激增的性能优化,需要从等多维度分层解决。

2025-05-24 20:45:36 591

原创 机器的磁盘满了,删日志没有反应,可能是什么问题?

磁盘满但删除文件无效的核心问题通常是「文件被进程占用」或「删除操作未真正释放内核资源」。优先通过lsof排查被占用的文件,结合进程管理和文件系统特性逐步解决。在生产环境中,操作前需备份数据,并避免直接终止关键进程,以免引发服务中断。

2025-05-24 20:37:27 811

原创 cpu使用率低但是cpu负载高什么原因?

CPU 负载的本质负载(Load Average)反映的是一段时间内(通常取 1 分钟、5 分钟、15 分钟)处于 Runnable(运行中或等待 CPU)和 Uninterruptible Sleep(不可中断睡眠,如等待 I/O)状态的进程数。高负载 ≠ 高 CPU 使用率:即使 CPU 使用率低,若有大量进程在排队等待 CPU 或阻塞在 I/O 操作,负载仍会升高。CPU 计算资源未充分利用,但系统整体调度压力或 I/O 阻塞导致任务处理效率低下。排查时需重点关注。

2025-05-24 20:13:32 892

原创 nginx的调度算法详解与实战

模块定义后端服务器组,并使用调度算法将请求分发给组内服务器。:根据客户端 IP 的哈希值确定服务器,确保同一客户端始终访问同一服务器。:结合权重与连接数,优先选择 “当前连接数 / 权重” 比值最小的服务器。:根据用户指定的 key(如 URL、参数)计算哈希值,确定服务器。:需 session 会话保持的场景(如购物车、登录状态)。:将 HTTP 请求分发给两台性能不同的 Web 服务器。:按顺序依次将请求分发给后端服务器,默认算法。:将请求分发给当前连接数最少的服务器。:后端服务器硬件性能差异较大时。

2025-05-24 20:00:32 619

go1.17.13.linux-adm64.tar.gz

go1.17.13.linux-adm64.tar.gz

2023-06-27

node-v12.0.0-linux-x86.tar.gz

node安装包

2023-01-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除