- 博客(190)
- 收藏
- 关注
原创 0 基础学运维:解锁 K8s 云计算运维工程师成长密码
前言:作为一个过来人,我曾站在技术的门槛之外,连电脑运行内存和内存空间都傻傻分不清,完完全全的零基础。但如今,我已成长为一名资深的k8s云计算运维工程师。回顾这段历程,我深知踏上这条技术之路的艰辛与不易,也明白方向和方法的重要性。想要在这个领域入行并拥有出类拔萃的技术,扎实的基础、对高级架构的理解,以及丰富的实战经验缺一不可。需要沿着基础、高级架构、实战进阶这三大板块所细分出的技术点,一步一个脚印地学习。初次看到这么多技术要点,心生畏惧是再正常不过的反应,我自己刚开始时也被唬住了。
2025-01-24 17:18:06
4581
15
原创 自动化运维(k8s)之微服务信息自动抓取:namespaceName、deploymentName等全解析
前言:在公司云原生 k8s 二开平台的日常运维中,工程师分享的一串通用性命令,让我萌生了将其转化为自动化脚本的想法。但写脚本从来不是一蹴而就的过程,它需要不断根据实际执行情况进行调整与优化。起初设计的版本一,我在脚本开头添加了一条环境变量,执行脚本后,系统会提示输入需要查询的命名空间,输出信息则会追加到以当前年月日时命名的自动生成 txt 文件中。随着使用场景的拓展,我对脚本进行了迭代升级,版本二实现了自动生成中文排头标题,并直接输出 csv 文件,省去了手动将 txt 转化为 excel 表的繁琐步骤。
2024-11-27 08:40:58
2208
4
原创 编译Nacos2.4.3源码-适配达梦数据库&麒麟ARM系统(国产信创化)
无巧不成书,11 月 25 日,我们按照 10 月份的方法编译 Nacos 2.4.3 版本(当前最新版)时,又碰上了新状况。详细情况都记录在《Nacos - 达梦驱动说明》这篇博客里。简单来说,如果当前达梦数据库架构所使用的驱动版本在 8.1.2.114 及以上,那操作步骤中的 DmJdbcDriver - 1.8.jar 就得替换成 DmJdbcDriver18.jar(个人建议使用这个包,对高版本达梦和次版本达梦架构都支持),除此之外,其余步骤照旧即可。
2024-11-26 08:55:30
3564
36
原创 Cloudflare Argo Smart Routing全球加速:优化跨境回源链路,提升跨区域访问体验
前言:在跨境业务部署过程中,不少开发者都会陷入一个“认知误区”:明明检测到Cloudflare免费CDN节点的延迟极低,可实际访问跨洋部署的源站时,却依然面临页面加载卡顿、接口响应缓慢的问题。这背后,是被多数人忽略的「边缘节点→源站」回源链路瓶颈——免费CDN仅能优化用户到边缘节点的访问,却无法解决跨太平洋回源的公网拥堵、路由绕行难题。在跨境业务实战中,我们也曾遭遇过同样的困境:从最初投入高成本的Pro套餐,到后来发现Argo Smart Routing这一高性价比解决方案,期间踩过套餐依赖、流量计费、子域
2026-04-16 11:00:40
337
原创 【运维安全】GitLab 极简运维清理空间指南:只做必要操作,绝不误删数据
前言:GitLab 作为企业代码管理核心,运维最怕两件事:磁盘被垃圾占满 和 内存泄漏导致卡顿。网上很多"一键清理"教程鱼龙混杂,乱执行命令很容易删错代码、影响业务。本文严格遵循「只做必要操作,绝不触碰真实数据」的原则,给所有清理命令标注利弊、安全等级、版本差异,只推荐最安全的方案,小白也能放心用。
2026-04-11 00:19:06
385
原创 禅道开源版空间无限膨胀?手把手写生产级自动清理脚本,彻底解决磁盘占满问题
前言:禅道开源版备份不清理,磁盘早晚被撑爆!本文提供一套生产级自动清理方案,只删 7 天前的旧备份,不影响任何生产数据,彻底根治备份膨胀问题,运维小白也能直接复用。
2026-04-10 23:41:20
381
原创 微软(Microsoft 365) 自定义域名企业邮件系统全流程通用配置手册
前言:在企业数字化办公场景中,基于微软365(Microsoft 365)搭建自定义域名的企业邮件系统,是实现品牌统一、邮件安全合规、办公协同一体化的核心方案。本文完全遵循微软官方标准配置规范,适配Cloudflare、阿里云、腾讯云、GoDaddy等所有主流DNS托管环境,提供一套可直接落地、零风险、全流程通用的配置方案,全程无特定域名、无企业专属信息,IT运维人员可直接对照操作,完成企业级邮件系统的从零搭建。
2026-04-09 17:55:48
583
原创 Cloudflare 新版安全仪表板 Bot Fight Mode 403 拦截 调URL接口cf-mitigated: challenge报错解决方案
前言:在使用 Cloudflare 为站点提供网络加速与全场景安全防护的过程中,大量运维与开发人员会遇到 服务器端回调接口被 Bot Fight Mode 误拦截 的高频问题:即便已经在 WAF 中配置了全量跳过的自定义规则,接口请求依然会被触发人机验证,返回 403 状态码、专属拦截响应头,甚至 Cloudflare 人机验证 HTML 页面
2026-04-09 17:43:18
480
原创 Linux运维必看:用 Ansible 构建企业级自动化体系(含7大实战剧本)
前言:本文面向运维工程师、DevOps从业者、需要管理多台服务器的开发人员,直击传统Shell脚本运维的核心痛点:逐台执行效率低、无幂等性易出错、敏感信息明文泄露、大规模集群难管控、无标准化可追溯能力。全文从Ansible核心原理出发,手把手带你完成安装部署、高频命令上手,配套7套可直接落地的生产级Playbook剧本,同时覆盖敏感信息加密、灰度发布、自动回滚、大规模集群性能优化等企业级核心能力,帮你彻底告别零散的手动脚本,构建一套标准化、安全、高效的自动化运维体系。
2026-04-03 10:24:10
414
原创 生产环境Certbot泛域名证书全自动续期完整配置指南(Cloudflare DNS验证)
前言:在生产环境中,使用Let's Encrypt免费证书是主流选择,但90%的运维同学都踩过同一个坑:证书能手动申请、能自动续期,但续期后Nginx不加载新证书,最终导致业务访问异常。核心问题根本不是Certbot没续期成功,而是 没有给自动续期流程永久绑定「证书同步+服务重载」的钩子脚本。本文基于生产环境实战经验,提供一套完整、可落地、零故障的全自动续期方案,覆盖CentOS/Ubuntu双系统,彻底解决证书过期问题。
2026-04-02 18:14:31
482
原创 生产环境Linux应用目录迁移至LVM独立分区 标准化实战方案
前言:在企业级Linux运维场景中,系统盘与业务数据盘分离是 核心运维规范之一。我们经常会遇到这类场景:业务上线初期未做目录规划,应用数据、上传附件、日志文件直接存放在根分区下的默认目录,随着业务增长,根分区被占满导致系统崩溃、数据备份困难、磁盘扩容受限等问题频发。本文基于生产环境实战经验,提供一套**通用、可复制、零数据丢失、最小化停机窗口的应用目录迁移方案,通过预同步+增量同步的两步法,将业务停机窗口从数小时压缩至秒级,将正在运行的业务目录无缝迁移至LVM逻辑卷分区,全程遵循Linux标准规范,兼顾稳定
2026-03-26 17:40:49
411
原创 GitLab服务器内存优化全指南:中小团队到规模化研发的全场景资源管控方案
前言:GitLab是全球主流的代码托管与DevOps一体化平台,覆盖代码托管、CI/CD、代码评审、项目管理等全研发流程。但GitLab的默认配置是为万人大厂的规模化集群设计的,中小团队单机部署时,很容易遇到 内存占用居高不下、服务器频繁卡顿、甚至服务OOM被杀 的问题。本文将覆盖从10人以内小团队到百人以上规模化团队的全场景,提供可直接落地的精细化内存优化配置,不管你是单机独立部署GitLab,还是和其他服务同机部署,都能直接参考使用。
2026-02-28 15:18:24
848
原创 禅道服务器内存优化全指南:从10人到百人团队,全场景精细化配置方案
前言:禅道是国内研发团队最常用的项目管理、缺陷管理与协同工具,不管是小团队的测试环境,还是中大型企业的生产部署,都有极高的普及率。但很多团队都会遇到一个共性问题:禅道默认配置无明确资源上限,随着团队人数增长、数据量累积,很容易出现内存暴涨、服务器卡顿、甚至服务完全卡死的情况。
2026-02-28 15:09:49
612
原创 jumpserver堡垒机从 CentOS 7 迁移至 Rocky Linux 9 实战指南
前言:CentOS 7 官方支持终止后,服务器操作系统迭代成为企业运维刚需,Rocky Linux 9 作为 RHEL 兼容替代品,成为主流选择。堡垒机作为运维安全核心,承载权限管控与操作审计,其迁移需兼顾零数据丢失、低风险与服务连续性。本文复盘 CentOS 7 至 Rocky Linux 9 堡垒机迁移全流程,避开常见坑点,提供可直接复用的实战指南,助力运维同行高效完成迁移。
2026-02-13 16:01:33
716
原创 实战运维|CentOS7 Nexus3.21.1 迁移至 Rocky Linux9.5 + 升级至3.68.1
前言:随着 CentOS7 官方停止维护,企业服务器逐步迁移至 Rocky Linux9.5 等稳定替代发行版。本文针对「CentOS7 上的 Nexus3.21.1 先迁移到 Rocky9.5,再跨版本升级到3.68.1-02」的生产级场景,拆分「数据迁移」+「版本升级」两个核心阶段,全程规避系统差异、版本兼容问题,重点修正高风险解压路径隐患,所有步骤经生产环境验证,零数据丢失、可直接落地。
2026-02-13 15:46:09
763
原创 禅道一键包:跨服务器迁移 + 迁移至LVM分区 实战运维笔记
前言:本文基于禅道官方一键安装包实战记录,迁移分两步完成:旧服务器 → 新服务器默认目录→ 新服务器默认目录 → LVM独立分区。全程使用Linux标准真实路径,不使用自定义占位符,命令可直接复制执行,内网环境优先保证业务稳定与权限兼容。
2026-02-13 15:08:43
743
原创 GitLab 15.8.1 → 16.10.10 跨OS升级与迁移全流程实战(CentOS7 → Rocky9.5)
前言:在企业运维中,GitLab 版本升级与服务器迁移是高频且关键的操作。本文基于真实生产场景,完整记录了从 CentOS7 上的 GitLab 15.8.1,通过 5 步合规升级(含额外安全过渡节点)到 16.10.10,再将全量数据迁移至 Rocky9.5 新服务器*的全流程。
2026-02-09 21:28:59
872
原创 从 CentOS 7 到 Rocky 9:一次“物理迁移”式的 JDK 环境兼容实践
前言:随着 CentOS 7 官方支持落幕,向 Rocky Linux 9 迁移成为保障业务稳定的必然选择。而 **JDK 环境的无缝兼容**,是整个迁移中最关键也最易踩坑的环节——多版本依赖、硬编码路径,稍有偏差便会导致构建失败、业务瘫痪。我们没有选择“重装适配”的老路,而是通过“物理复刻”的思路,将老环境 JDK 目录完整同步到新环境,实现了新老环境的“像素级对齐”。本文将完整复盘这一实践,从步骤、逻辑到避坑,为跨系统 JDK 迁移提供一份可直接复用的高效方案。
2026-02-07 12:37:45
685
原创 PostgreSQL跨云跨版本全量迁移实战:从问题排查到生产就绪
前言:本次迁移涉及公司生产环境数据库,因数据敏感不方便截图展示,故本文全程以命令和文字描述操作方法,所有敏感信息均已替换为通用表述,全流程操作步骤可直接复用。
2026-02-07 10:06:34
649
原创 运维安全: SSH 公钥认证算法加固
前言:SSH 是运维日常,但你可能没注意到,陪伴我们是运维日常,但你可能没注意到,陪伴我们多年的 ssh-rsa 算法,早已因 SHA-1 漏洞成为潜在风险——哪怕是内网服务器也不例外。本文从版本兼容到生产实操,带你一步步完成 SSH 算法安全加固,避开配置陷阱,让服务器连接更安全
2026-02-04 21:24:00
761
原创 Magento 2.3.5 宝塔Linux环境完整安装指南(避坑版+图文详解)
前言:很多新手在安装Magento时会被环境配置、权限问题、安装中断等坑卡住,本文基于CentOS 7.9+宝塔面板,手把手带你完成从文件上传到多语言部署的全流程,所有步骤均亲测有效,附详细报错修复方案。
2026-02-03 19:56:27
728
原创 GitLab社区版备份优化:3M包为何是独立完整备份?
前言:作为一名常年和 GitLab 打交道的运维工程师,备份是我每周例行的“固定动作”。直到有一次,我盯着服务器上的备份文件陷入了困惑:第一次备份生成了 128M 的完整包,后续备份却只有 3M 大小。最开始我下意识以为这是增量备份——但我用的明明是 GitLab 社区版,官方文档明确写着社区版不支持依赖历史的增量备份功能。带着这个疑问,我翻遍了 GitLab 的官方文档和开源代码,终于搞懂了这个“从 128M 到 3M”的黑科技:它不是偷工减料的增量备份,而是 GitLab 基于 Git 原生机制做的完整
2026-01-26 14:23:34
634
原创 久坐办公党救星:用低内存脚本实现「不吵不烦」的定时活动提醒
前言:每天坐满8小时,颈椎僵硬、腰椎酸痛成了办公族的“标配”;明明知道每30分钟起身活动能缓解不适,却总是但常常忙到忘记时间;手机闹钟太吵,在安静的办公室里突然响起还会……
2026-01-16 16:27:25
894
原创 JumpServer跨网段访问内网服务器——跳板机配置方案
前言:在运维场景中,`堡垒机与内网服务器不在同一网段`是高频痛点,直接访问会因网络隔离失败。借助JumpServer的“跳板机”功能,可实现跨网段访问,本文分享经优化的两种通用配置方案。
2026-01-15 11:22:07
716
原创 为什么同内容的两个目录,ls和du显示的大小不一样?
前言:在进行目录迁移时,很容易遇到一个有趣的现象:明明是内容完全一致的两个目录,用`ls/ll`查看目录本身的大小时,数值并不相同;但用`du -sh`统计目录下文件的总大小,结果却完全一致。这背后藏着“目录元数据”的设计逻辑——今天从原理、历史到比喻,把这个知识点讲透。
2026-01-14 14:39:16
694
原创 用Nginx日志风格复刻《黑客帝国》代码雨:终端里的赛博朋克特效
前言:《黑客帝国》的绿色数字雨是赛博朋克经典符号,也是不少人对“代码之美”的初印象。出于对这个经典画面的喜爱,我决定复刻一款数字雨脚本。
2026-01-09 12:33:46
1171
原创 Gravitee Kafka Gateway 规范部署:HTTP API化封装与安全隔离实践
前言:协议混淆到规范落地,这是企业级Kafka API化的正确打开方式。在当下的企业消息架构中,Kafka几乎是高吞吐、低延迟场景的标配——但落地时,能用和用好之间往往隔着几道隐形门槛。无论你是需要为非Kafka客户端提供接入入口,还是想给多业务线做API级管控,这篇文档都能让你绕开99%的坑,实现“规范、安全、可落地”的Gravitee Kafka Gateway部署。
2026-01-06 15:46:24
695
原创 靠这套内网DNS解决“IPv6优先级高+动态IPv6白名单配置繁琐+域名商IPv6不能关”的访问死局
前言:不少企业会碰到这样的拧巴网络场景:只有一个`固定IPv4已加入域名IP白名单`,但IPv6是动态地址(每次变更需重新配置白名单,操作繁琐),因此未将IPv6加入白名单;更棘手的是——域名商后台的“IPv6兼容性”开关必须保持开启(业务要求无法关闭),哪怕终端能正常访问的只有固定IPv4,仍会优先发起IPv6请求,而这些动态IPv6不在白名单内会被拦截,最终导致业务域名频繁超时、无法访问。同时还叠加了这些痛点:CDN节点IP频繁变更需要手动改解析、公网DNS存在劫持风险、多分支跨网访问延迟高。最终选择搭
2025-12-26 18:05:26
1474
原创 React Server Components漏洞致网友5台后端服务器变矿机:修正版真实场景复盘+全流程加固
前言:在技术社区,“服务器被挖矿”从来不是新鲜事,但当漏洞源头指向热门框架的核心特性时,总能引发全网关注——近期网友爆料的“5台React 19.x后端服务器集体变矿机”事件,正是如此。这起事故并非个例:React 19.x系列引入的Server Components特性,因文件上传接口权限配置漏洞(CVE-2025-55184/CVE-2025-67779),让黑客有机可乘,通过前端SSR接口上传恶意脚本,最终实现批量入侵。更值得警惕的是,初期因版本认知偏差,不少开发者走了“升级错误版本”“杀错进程”的弯
2025-12-12 15:23:10
612
原创 网络协议 vs 外卖配送:点个外卖,看透互联网底层逻辑
前言:网络协议的核心是 制定一套“设备间通信的通用规则”,确保数据能准确、有序、可靠地从一端传到另一端;而外卖配送也是一套“从用户到商家再到骑手的标准化流程”,两者的底层逻辑完全相通。下面用外卖完整流程,对应讲解核心网络协议的作用,通俗易懂还不丢技术本质。
2025-12-01 15:59:15
887
原创 生产环境资源占用过高排查实战:从Heap Dump到全链路优化
前言:在生产环境中,程序突然出现CPU飙升、内存持续暴涨、响应超时等问题,就像工厂生产线突然停摆——不仅影响用户体验,还可能造成直接业务损失。这些问题往往隐藏在复杂的代码逻辑、集群部署和高并发流量中,让人无从下手。Heap Dump(内存快照)是我们排查内存问题的"高清照相机",但解决生产环境资源占用过高的问题,绝不能只靠这一个工具。本文将从服务器/容器环境采集数据入手,结合程序日志、数据库慢日志、Heap Dump等多维度诊断手段,再到与开发协作优化的完整流程,手把手教你搞定生产环境的资源"顽疾"。
2025-12-01 14:19:13
1089
原创 containerd 2.0 升级终极手册:K8s v1.35 强制要求下的运维避坑与平稳过渡
前言:Kubernetes v1.35强制迁移!containerd 2.0升级,运维必看的无故障指南。当Kubernetes v1.35版本正式宣告对containerd 1.x系列的支持终结,一场关乎所有K8s集群稳定性的“运行时升级战役”已然打响——从v1.36版本开始,kubelet将直接拒绝连接containerd 1.x,这意味着所有存量集群必须在升级至v1.36前,完成向containerd 2.0+的迁移。对于运维而言,这次迁移绝非“简单的版本更新”:containerd 2.0
2025-11-27 12:14:41
1592
原创 Kubernetes v1.35 双重大变更:废弃 IPVS 与 containerd 1.x,nftables + 2.0 时代全面降临
前言:Kubernetes v1.35的“底层换芯”,运维必须提前掌握的双重大变更。如果说Kubernetes的版本迭代是一场持续进化的旅程,那么v1.35版本无疑是一次“刮骨疗毒”式的底层升级——两大核心依赖同步迎来“代际更替”:kube-proxy的IPVS模式正式谢幕,nftables成为网络代理的默认选择;containerd 1.x系列走到生命周期终点,2.0+版本成为集群运行时的强制要求。
2025-11-27 11:57:39
1623
原创 Cloudflare 11.18故障反思:海外+国内域名高可用双场景灾备完整方案
前言:2025年11月18日,Cloudflare全球网络突发大规模服务降级,DNS、CDN等核心服务间歇性中断,致使大量依赖其服务的海外业务陷入瘫痪。这一事故再次警示我们:对单一服务商的深度依赖,是业务连续性的致命隐患。而本文将为你详解一套“**故障时能及时切换、保障业务不中断**”的灾备方案——针对海外业务,构建“Cloudflare日常运行+Dynadot冷备切换”的组合;针对国内业务,打造“阿里云主用+腾讯云冷备”的全链路体系,从平台选型、配置部署到故障时的快速切换,全流程拆解,助力你在类似
2025-11-20 18:36:29
1325
原创 扛住双11洪峰-百万并发架构:LVS+Keepalived+Nginx+Spring Cloud Gateway
前言:在电商大促、春运抢票、直播带货等场景中,每秒数十万甚至上百万的请求就像“双11当天的海量快递”——如果没有一套“抗造、高效、不宕机”的分拣系统,包裹会瞬间堆积成山,用户面对的只会是“加载失败”“请求超时”的崩溃页面。
2025-11-18 18:05:52
990
原创 宝塔部署-Magento2 2.3.5 安装全流程踩坑与成功实践(有坑版-部署请看另外一篇)
前言:Magento2 作为 Adobe 旗下的企业级开源电商平台,凭借强大的扩展性、多语言支持和精细化运营功能,成为全球众多电商企业的首选。但它的安装配置门槛较高,尤其对新手而言,环境兼容、依赖管理、静态资源部署等环节极易踩坑——我就曾因盲目尝试 Docker 容器部署,遭遇了版本冲突、权限隔离、内存溢出等一系列问题,耗费大量时间仍未成功。后来转向操作更直观的宝塔面板,在反复调试中解决了 Composer 1.x 降级、内存限制解除、静态文件 404、CSS/JS 缺失等核心痛点,最终摸索出一套完整且可复
2025-11-17 15:50:33
1047
原创 Jenkins通过跳板机部署踩坑:环境变量缺失导致SCP/SSH异常的排查与解决
前言:在基于Jenkins的自动化部署场景中,“跳板机转发+内网服务器部署”是常见架构。近期我在维护这类任务时,遇到了:Jenkins构建时SCP/SSH命令执行异常,但手动执行正常 的问题,最终通过加载环境变量得以解决。现将整个排查过程整理为博客,供大家参考。
2025-11-13 11:16:35
780
原创 Jenkins从节点配置报错处理:从搭建到任务调度,参数详解与实战指南
不少人会遇到这样的困惑:Jenkins从节点接入成功后,或是运行多年的老环境迁移至新环境时,明明已对齐主节点(或老环境)的多版本JDK、Maven环境及Nexus配置等关键配置,可相同任务在主节点(或老环境)能正常运行,到了从节点(或新环境)却持续报错——这究竟是为何?
2025-10-25 19:21:09
979
原创 多服务隔离部署jenkins自动化脚本:从构建到上线的全流程保障
前言:在多服务并行部署的场景中,最头疼的问题莫过于“服务串扰”——端口冲突、域名混淆、配置覆盖等问题,轻则导致服务不可用,重则影响其他线上服务。本文分享一套经过实战验证的自动化部署脚本,通过“严格隔离+强制验证”机制,实现多服务独立部署的零干扰,同时兼顾配置替换的完整性和部署的可靠性。
2025-10-21 18:34:21
865
原创 OpenSSH安全升级全指南:从编译安装到中文显示异常完美解决
前言:OpenSSH作为服务器远程管理的核心工具,及时升级是修复安全漏洞、保障远程连接安全的关键。但升级过程中可能遇到各类问题(如中文显示乱码),本文将详细介绍OpenSSH从源码编译升级的完整步骤,包含 强制备份机制 和 中文显示异常解决方案,确保升级过程安全可控。
2025-10-21 17:55:30
1455
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅