Linux运维技术栈-CSDN博客

原创 0 基础学运维：解锁 K8s 云计算运维工程师成长密码

前言：作为一个过来人，我曾站在技术的门槛之外，连电脑运行内存和内存空间都傻傻分不清，完完全全的零基础。但如今，我已成长为一名资深的k8s云计算运维工程师。回顾这段历程，我深知踏上这条技术之路的艰辛与不易，也明白方向和方法的重要性。想要在这个领域入行并拥有出类拔萃的技术，扎实的基础、对高级架构的理解，以及丰富的实战经验缺一不可。需要沿着基础、高级架构、实战进阶这三大板块所细分出的技术点，一步一个脚印地学习。初次看到这么多技术要点，心生畏惧是再正常不过的反应，我自己刚开始时也被唬住了。

2025-01-24 17:18:06 4593 15

原创自动化运维(k8s)之微服务信息自动抓取：namespaceName、deploymentName等全解析

前言：在公司云原生 k8s 二开平台的日常运维中，工程师分享的一串通用性命令，让我萌生了将其转化为自动化脚本的想法。但写脚本从来不是一蹴而就的过程，它需要不断根据实际执行情况进行调整与优化。起初设计的版本一，我在脚本开头添加了一条环境变量，执行脚本后，系统会提示输入需要查询的命名空间，输出信息则会追加到以当前年月日时命名的自动生成 txt 文件中。随着使用场景的拓展，我对脚本进行了迭代升级，版本二实现了自动生成中文排头标题，并直接输出 csv 文件，省去了手动将 txt 转化为 excel 表的繁琐步骤。

2024-11-27 08:40:58 2223 4

原创编译Nacos2.4.3源码-适配达梦数据库&麒麟ARM系统(国产信创化）

无巧不成书，11 月 25 日，我们按照 10 月份的方法编译 Nacos 2.4.3 版本（当前最新版）时，又碰上了新状况。详细情况都记录在《Nacos - 达梦驱动说明》这篇博客里。简单来说，如果当前达梦数据库架构所使用的驱动版本在 8.1.2.114 及以上，那操作步骤中的 DmJdbcDriver - 1.8.jar 就得替换成 DmJdbcDriver18.jar(个人建议使用这个包，对高版本达梦和次版本达梦架构都支持），除此之外，其余步骤照旧即可。

2024-11-26 08:55:30 3591 36

原创配置中心与服务中心：从技术到通俗解释

前言：在微服务架构的演进浪潮中，配置中心与服务中心是两颗绕不过去的基石。它们一个掌管着服务的“灵魂设定”，一个维系着服务的“社交关系”。要真正理解它们，我们得从纯技术视角切入，勾勒出其核心机理与进化脉络。

2026-04-27 16:11:12 354

原创云计算时代下，PostgreSQL 跑在 K8s 里？2026 年了，我们该重新聊聊这个话题 | 从痛点到选型，一篇讲透

前言：2026年，云计算与云原生技术深度融合，PostgreSQL跑在K8s里已经完全生产就绪，但核心交易系统依然不建议自建。本文拆解了早期K8s部署数据库的四大痛点，结合云计算技术演进（CXL、eBPF/Cilium、云数据库服务），分析如何解决这些问题，并给出不同场景下的选型决策矩阵和生产级避坑指南。

2026-04-22 16:36:02 446

原创 Cloudflare Argo Smart Routing全球加速：优化跨境回源链路，提升跨区域访问体验

前言：在跨境业务部署过程中，不少开发者都会陷入一个“认知误区”：明明检测到Cloudflare免费CDN节点的延迟极低，可实际访问跨洋部署的源站时，却依然面临页面加载卡顿、接口响应缓慢的问题。这背后，是被多数人忽略的「边缘节点→源站」回源链路瓶颈——免费CDN仅能优化用户到边缘节点的访问，却无法解决跨太平洋回源的公网拥堵、路由绕行难题。在跨境业务实战中，我们也曾遭遇过同样的困境：从最初投入高成本的Pro套餐，到后来发现Argo Smart Routing这一高性价比解决方案，期间踩过套餐依赖、流量计费、子域

2026-04-16 11:00:40 373

原创【运维安全】GitLab 极简运维清理空间指南：只做必要操作，绝不误删数据

前言：GitLab 作为企业代码管理核心，运维最怕两件事：磁盘被垃圾占满和内存泄漏导致卡顿。网上很多"一键清理"教程鱼龙混杂，乱执行命令很容易删错代码、影响业务。本文严格遵循「只做必要操作，绝不触碰真实数据」的原则，给所有清理命令标注利弊、安全等级、版本差异，只推荐最安全的方案，小白也能放心用。

2026-04-11 00:19:06 399

原创禅道开源版空间无限膨胀？手把手写生产级自动清理脚本，彻底解决磁盘占满问题

前言：禅道开源版备份不清理，磁盘早晚被撑爆！本文提供一套生产级自动清理方案，只删 7 天前的旧备份，不影响任何生产数据，彻底根治备份膨胀问题，运维小白也能直接复用。

2026-04-10 23:41:20 399

原创微软（Microsoft 365）自定义域名企业邮件系统全流程通用配置手册

前言：在企业数字化办公场景中，基于微软365（Microsoft 365）搭建自定义域名的企业邮件系统，是实现品牌统一、邮件安全合规、办公协同一体化的核心方案。本文完全遵循微软官方标准配置规范，适配Cloudflare、阿里云、腾讯云、GoDaddy等所有主流DNS托管环境，提供一套可直接落地、零风险、全流程通用的配置方案，全程无特定域名、无企业专属信息，IT运维人员可直接对照操作，完成企业级邮件系统的从零搭建。

2026-04-09 17:55:48 615

原创 Cloudflare 新版安全仪表板 Bot Fight Mode 403 拦截调URL接口cf-mitigated: challenge报错解决方案

前言：在使用 Cloudflare 为站点提供网络加速与全场景安全防护的过程中，大量运维与开发人员会遇到服务器端回调接口被 Bot Fight Mode 误拦截的高频问题：即便已经在 WAF 中配置了全量跳过的自定义规则，接口请求依然会被触发人机验证，返回 403 状态码、专属拦截响应头，甚至 Cloudflare 人机验证 HTML 页面

2026-04-09 17:43:18 509

原创 Linux运维必看:用 Ansible 构建企业级自动化体系（含7大实战剧本）

前言：本文面向运维工程师、DevOps从业者、需要管理多台服务器的开发人员，直击传统Shell脚本运维的核心痛点：逐台执行效率低、无幂等性易出错、敏感信息明文泄露、大规模集群难管控、无标准化可追溯能力。全文从Ansible核心原理出发，手把手带你完成安装部署、高频命令上手，配套7套可直接落地的生产级Playbook剧本，同时覆盖敏感信息加密、灰度发布、自动回滚、大规模集群性能优化等企业级核心能力，帮你彻底告别零散的手动脚本，构建一套标准化、安全、高效的自动化运维体系。

2026-04-03 10:24:10 455

原创生产环境Certbot泛域名证书全自动续期完整配置指南（Cloudflare DNS验证）

前言:在生产环境中，使用Let's Encrypt免费证书是主流选择，但90%的运维同学都踩过同一个坑：证书能手动申请、能自动续期，但续期后Nginx不加载新证书，最终导致业务访问异常。核心问题根本不是Certbot没续期成功，而是没有给自动续期流程永久绑定「证书同步+服务重载」的钩子脚本。本文基于生产环境实战经验，提供一套完整、可落地、零故障的全自动续期方案，覆盖CentOS/Ubuntu双系统，彻底解决证书过期问题。

2026-04-02 18:14:31 487

原创生产环境Linux应用目录迁移至LVM独立分区标准化实战方案

前言：在企业级Linux运维场景中，系统盘与业务数据盘分离是核心运维规范之一。我们经常会遇到这类场景：业务上线初期未做目录规划，应用数据、上传附件、日志文件直接存放在根分区下的默认目录，随着业务增长，根分区被占满导致系统崩溃、数据备份困难、磁盘扩容受限等问题频发。本文基于生产环境实战经验，提供一套**通用、可复制、零数据丢失、最小化停机窗口的应用目录迁移方案，通过预同步+增量同步的两步法，将业务停机窗口从数小时压缩至秒级，将正在运行的业务目录无缝迁移至LVM逻辑卷分区，全程遵循Linux标准规范，兼顾稳定

2026-03-26 17:40:49 419

原创 GitLab服务器内存优化全指南：中小团队到规模化研发的全场景资源管控方案

前言：GitLab是全球主流的代码托管与DevOps一体化平台，覆盖代码托管、CI/CD、代码评审、项目管理等全研发流程。但GitLab的默认配置是为万人大厂的规模化集群设计的，中小团队单机部署时，很容易遇到内存占用居高不下、服务器频繁卡顿、甚至服务OOM被杀的问题。本文将覆盖从10人以内小团队到百人以上规模化团队的全场景，提供可直接落地的精细化内存优化配置，不管你是单机独立部署GitLab，还是和其他服务同机部署，都能直接参考使用。

2026-02-28 15:18:24 873

原创禅道服务器内存优化全指南：从10人到百人团队，全场景精细化配置方案

前言：禅道是国内研发团队最常用的项目管理、缺陷管理与协同工具，不管是小团队的测试环境，还是中大型企业的生产部署，都有极高的普及率。但很多团队都会遇到一个共性问题：禅道默认配置无明确资源上限，随着团队人数增长、数据量累积，很容易出现内存暴涨、服务器卡顿、甚至服务完全卡死的情况。

2026-02-28 15:09:49 623

原创 jumpserver堡垒机从 CentOS 7 迁移至 Rocky Linux 9 实战指南

前言：CentOS 7 官方支持终止后，服务器操作系统迭代成为企业运维刚需，Rocky Linux 9 作为 RHEL 兼容替代品，成为主流选择。堡垒机作为运维安全核心，承载权限管控与操作审计，其迁移需兼顾零数据丢失、低风险与服务连续性。本文复盘 CentOS 7 至 Rocky Linux 9 堡垒机迁移全流程，避开常见坑点，提供可直接复用的实战指南，助力运维同行高效完成迁移。

2026-02-13 16:01:33 731

原创实战运维｜CentOS7 Nexus3.21.1 迁移至 Rocky Linux9.5 + 升级至3.68.1

前言：随着 CentOS7 官方停止维护，企业服务器逐步迁移至 Rocky Linux9.5 等稳定替代发行版。本文针对「CentOS7 上的 Nexus3.21.1 先迁移到 Rocky9.5，再跨版本升级到3.68.1-02」的生产级场景，拆分「数据迁移」+「版本升级」两个核心阶段，全程规避系统差异、版本兼容问题，重点修正高风险解压路径隐患，所有步骤经生产环境验证，零数据丢失、可直接落地。

2026-02-13 15:46:09 782

原创禅道一键包：跨服务器迁移 + 迁移至LVM分区实战运维笔记

前言：本文基于禅道官方一键安装包实战记录，迁移分两步完成：旧服务器 → 新服务器默认目录→ 新服务器默认目录 → LVM独立分区。全程使用Linux标准真实路径，不使用自定义占位符，命令可直接复制执行，内网环境优先保证业务稳定与权限兼容。

2026-02-13 15:08:43 760

原创 GitLab 15.8.1 → 16.10.10 跨OS升级与迁移全流程实战（CentOS7 → Rocky9.5）

前言：在企业运维中，GitLab 版本升级与服务器迁移是高频且关键的操作。本文基于真实生产场景，完整记录了从 CentOS7 上的 GitLab 15.8.1，通过 5 步合规升级（含额外安全过渡节点）到 16.10.10，再将全量数据迁移至 Rocky9.5 新服务器*的全流程。

2026-02-09 21:28:59 899

原创从 CentOS 7 到 Rocky 9：一次“物理迁移”式的 JDK 环境兼容实践

前言：随着 CentOS 7 官方支持落幕，向 Rocky Linux 9 迁移成为保障业务稳定的必然选择。而 **JDK 环境的无缝兼容**，是整个迁移中最关键也最易踩坑的环节——多版本依赖、硬编码路径，稍有偏差便会导致构建失败、业务瘫痪。我们没有选择“重装适配”的老路，而是通过“物理复刻”的思路，将老环境 JDK 目录完整同步到新环境，实现了新老环境的“像素级对齐”。本文将完整复盘这一实践，从步骤、逻辑到避坑，为跨系统 JDK 迁移提供一份可直接复用的高效方案。

2026-02-07 12:37:45 693

原创 PostgreSQL跨云跨版本全量迁移实战：从问题排查到生产就绪

前言：本次迁移涉及公司生产环境数据库，因数据敏感不方便截图展示，故本文全程以命令和文字描述操作方法，所有敏感信息均已替换为通用表述，全流程操作步骤可直接复用。

2026-02-07 10:06:34 653

原创运维安全： SSH 公钥认证算法加固

前言:SSH 是运维日常，但你可能没注意到，陪伴我们是运维日常，但你可能没注意到，陪伴我们多年的 ssh-rsa 算法，早已因 SHA-1 漏洞成为潜在风险——哪怕是内网服务器也不例外。本文从版本兼容到生产实操，带你一步步完成 SSH 算法安全加固，避开配置陷阱，让服务器连接更安全

2026-02-04 21:24:00 773

原创 Magento 2.3.5 宝塔Linux环境完整安装指南（避坑版+图文详解）

前言：很多新手在安装Magento时会被环境配置、权限问题、安装中断等坑卡住，本文基于CentOS 7.9+宝塔面板，手把手带你完成从文件上传到多语言部署的全流程，所有步骤均亲测有效，附详细报错修复方案。

2026-02-03 19:56:27 739

原创 GitLab社区版备份优化：3M包为何是独立完整备份？

前言：作为一名常年和 GitLab 打交道的运维工程师，备份是我每周例行的“固定动作”。直到有一次，我盯着服务器上的备份文件陷入了困惑：第一次备份生成了 128M 的完整包，后续备份却只有 3M 大小。最开始我下意识以为这是增量备份——但我用的明明是 GitLab 社区版，官方文档明确写着社区版不支持依赖历史的增量备份功能。带着这个疑问，我翻遍了 GitLab 的官方文档和开源代码，终于搞懂了这个“从 128M 到 3M”的黑科技：它不是偷工减料的增量备份，而是 GitLab 基于 Git 原生机制做的完整

2026-01-26 14:23:34 637

原创久坐办公党救星：用低内存脚本实现「不吵不烦」的定时活动提醒

前言：每天坐满8小时，颈椎僵硬、腰椎酸痛成了办公族的“标配”；明明知道每30分钟起身活动能缓解不适，却总是但常常忙到忘记时间；手机闹钟太吵，在安静的办公室里突然响起还会……

2026-01-16 16:27:25 898

原创 JumpServer跨网段访问内网服务器——跳板机配置方案

前言:在运维场景中，`堡垒机与内网服务器不在同一网段`是高频痛点，直接访问会因网络隔离失败。借助JumpServer的“跳板机”功能，可实现跨网段访问，本文分享经优化的两种通用配置方案。

2026-01-15 11:22:07 744

原创为什么同内容的两个目录，ls和du显示的大小不一样？

前言：在进行目录迁移时，很容易遇到一个有趣的现象：明明是内容完全一致的两个目录，用`ls/ll`查看目录本身的大小时，数值并不相同；但用`du -sh`统计目录下文件的总大小，结果却完全一致。这背后藏着“目录元数据”的设计逻辑——今天从原理、历史到比喻，把这个知识点讲透。

2026-01-14 14:39:16 714

原创用Nginx日志风格复刻《黑客帝国》代码雨：终端里的赛博朋克特效

前言：《黑客帝国》的绿色数字雨是赛博朋克经典符号，也是不少人对“代码之美”的初印象。出于对这个经典画面的喜爱，我决定复刻一款数字雨脚本。

2026-01-09 12:33:46 1178

原创 Gravitee Kafka Gateway 规范部署：HTTP API化封装与安全隔离实践

前言：协议混淆到规范落地，这是企业级Kafka API化的正确打开方式。在当下的企业消息架构中，Kafka几乎是高吞吐、低延迟场景的标配——但落地时，能用和用好之间往往隔着几道隐形门槛。无论你是需要为非Kafka客户端提供接入入口，还是想给多业务线做API级管控，这篇文档都能让你绕开99%的坑，实现“规范、安全、可落地”的Gravitee Kafka Gateway部署。

2026-01-06 15:46:24 699

原创靠这套内网DNS解决“IPv6优先级高+动态IPv6白名单配置繁琐+域名商IPv6不能关”的访问死局

前言：不少企业会碰到这样的拧巴网络场景：只有一个`固定IPv4已加入域名IP白名单`，但IPv6是动态地址（每次变更需重新配置白名单，操作繁琐），因此未将IPv6加入白名单；更棘手的是——域名商后台的“IPv6兼容性”开关必须保持开启（业务要求无法关闭），哪怕终端能正常访问的只有固定IPv4，仍会优先发起IPv6请求，而这些动态IPv6不在白名单内会被拦截，最终导致业务域名频繁超时、无法访问。同时还叠加了这些痛点：CDN节点IP频繁变更需要手动改解析、公网DNS存在劫持风险、多分支跨网访问延迟高。最终选择搭

2025-12-26 18:05:26 1504

原创 React Server Components漏洞致网友5台后端服务器变矿机：修正版真实场景复盘+全流程加固

前言：在技术社区，“服务器被挖矿”从来不是新鲜事，但当漏洞源头指向热门框架的核心特性时，总能引发全网关注——近期网友爆料的“5台React 19.x后端服务器集体变矿机”事件，正是如此。这起事故并非个例：React 19.x系列引入的Server Components特性，因文件上传接口权限配置漏洞（CVE-2025-55184/CVE-2025-67779），让黑客有机可乘，通过前端SSR接口上传恶意脚本，最终实现批量入侵。更值得警惕的是，初期因版本认知偏差，不少开发者走了“升级错误版本”“杀错进程”的弯

2025-12-12 15:23:10 616

原创网络协议 vs 外卖配送：点个外卖，看透互联网底层逻辑

前言：网络协议的核心是制定一套“设备间通信的通用规则”，确保数据能准确、有序、可靠地从一端传到另一端；而外卖配送也是一套“从用户到商家再到骑手的标准化流程”，两者的底层逻辑完全相通。下面用外卖完整流程，对应讲解核心网络协议的作用，通俗易懂还不丢技术本质。

2025-12-01 15:59:15 890

原创生产环境资源占用过高排查实战：从Heap Dump到全链路优化

前言：在生产环境中，程序突然出现CPU飙升、内存持续暴涨、响应超时等问题，就像工厂生产线突然停摆——不仅影响用户体验，还可能造成直接业务损失。这些问题往往隐藏在复杂的代码逻辑、集群部署和高并发流量中，让人无从下手。Heap Dump（内存快照）是我们排查内存问题的"高清照相机"，但解决生产环境资源占用过高的问题，绝不能只靠这一个工具。本文将从服务器/容器环境采集数据入手，结合程序日志、数据库慢日志、Heap Dump等多维度诊断手段，再到与开发协作优化的完整流程，手把手教你搞定生产环境的资源"顽疾"。

2025-12-01 14:19:13 1094

原创 containerd 2.0 升级终极手册：K8s v1.35 强制要求下的运维避坑与平稳过渡

前言：Kubernetes v1.35强制迁移！containerd 2.0升级，运维必看的无故障指南。当Kubernetes v1.35版本正式宣告对containerd 1.x系列的支持终结，一场关乎所有K8s集群稳定性的“运行时升级战役”已然打响——从v1.36版本开始，kubelet将直接拒绝连接containerd 1.x，这意味着所有存量集群必须在升级至v1.36前，完成向containerd 2.0+的迁移。对于运维而言，这次迁移绝非“简单的版本更新”：containerd 2.0

2025-11-27 12:14:41 1625

原创 Kubernetes v1.35 双重大变更：废弃 IPVS 与 containerd 1.x，nftables + 2.0 时代全面降临

前言：Kubernetes v1.35的“底层换芯”，运维必须提前掌握的双重大变更。如果说Kubernetes的版本迭代是一场持续进化的旅程，那么v1.35版本无疑是一次“刮骨疗毒”式的底层升级——两大核心依赖同步迎来“代际更替”：kube-proxy的IPVS模式正式谢幕，nftables成为网络代理的默认选择；containerd 1.x系列走到生命周期终点，2.0+版本成为集群运行时的强制要求。

2025-11-27 11:57:39 1651

原创 Cloudflare 11.18故障反思：海外+国内域名高可用双场景灾备完整方案

前言：2025年11月18日，Cloudflare全球网络突发大规模服务降级，DNS、CDN等核心服务间歇性中断，致使大量依赖其服务的海外业务陷入瘫痪。这一事故再次警示我们：对单一服务商的深度依赖，是业务连续性的致命隐患。而本文将为你详解一套“**故障时能及时切换、保障业务不中断**”的灾备方案——针对海外业务，构建“Cloudflare日常运行+Dynadot冷备切换”的组合；针对国内业务，打造“阿里云主用+腾讯云冷备”的全链路体系，从平台选型、配置部署到故障时的快速切换，全流程拆解，助力你在类似

2025-11-20 18:36:29 1328

原创扛住双11洪峰-百万并发架构：LVS+Keepalived+Nginx+Spring Cloud Gateway

前言：在电商大促、春运抢票、直播带货等场景中，每秒数十万甚至上百万的请求就像“双11当天的海量快递”——如果没有一套“抗造、高效、不宕机”的分拣系统，包裹会瞬间堆积成山，用户面对的只会是“加载失败”“请求超时”的崩溃页面。

2025-11-18 18:05:52 1003

原创宝塔部署-Magento2 2.3.5 安装全流程踩坑与成功实践（有坑版-部署请看另外一篇）

前言：Magento2 作为 Adobe 旗下的企业级开源电商平台，凭借强大的扩展性、多语言支持和精细化运营功能，成为全球众多电商企业的首选。但它的安装配置门槛较高，尤其对新手而言，环境兼容、依赖管理、静态资源部署等环节极易踩坑——我就曾因盲目尝试 Docker 容器部署，遭遇了版本冲突、权限隔离、内存溢出等一系列问题，耗费大量时间仍未成功。后来转向操作更直观的宝塔面板，在反复调试中解决了 Composer 1.x 降级、内存限制解除、静态文件 404、CSS/JS 缺失等核心痛点，最终摸索出一套完整且可复

2025-11-17 15:50:33 1054

原创 Jenkins通过跳板机部署踩坑：环境变量缺失导致SCP/SSH异常的排查与解决

前言：在基于Jenkins的自动化部署场景中，“跳板机转发+内网服务器部署”是常见架构。近期我在维护这类任务时，遇到了：Jenkins构建时SCP/SSH命令执行异常，但手动执行正常的问题，最终通过加载环境变量得以解决。现将整个排查过程整理为博客，供大家参考。

2025-11-13 11:16:35 786

原创 Jenkins从节点配置报错处理：从搭建到任务调度，参数详解与实战指南

不少人会遇到这样的困惑：Jenkins从节点接入成功后，或是运行多年的老环境迁移至新环境时，明明已对齐主节点（或老环境）的多版本JDK、Maven环境及Nexus配置等关键配置，可相同任务在主节点（或老环境）能正常运行，到了从节点（或新环境）却持续报错——这究竟是为何？

2025-10-25 19:21:09 987

空空如也

空空如也