勇往直前的专栏

写给以后的自己

凌晨1点突发致命生产事故!看的我惊心动魄…

文章转载自公众号纯洁的微笑,作者 微笑很纯洁 “有一个读者问我:你认为一个程序员具备什么样的能力,才算得上是厉害的程序员?我答:拥有解决问题的能力的程序员。这个回答貌似有点抽象,不要紧看下面的文章你会慢慢有所了解。 图片来自 Pexels解决问题的能力 很多年前,当我还是一个小菜鸟的时候,我...

2019-08-05 09:23:01

阅读数 32

评论数 1

不小心执行了 rm -f,先别急着跑路

作者:justmine http://www.cnblogs.com/justmine/p/10359186.html 前言 每当我们在生产环境服务器上执行rm命令时,总是提心吊胆的,因为一不小心执行了误删,然后就要准备跑路了,毕竟人不是机器,更何况机器也有bug,呵呵。 那么如果真...

2019-07-26 14:36:48

阅读数 67

评论数 0

一次服务器CPU占用率高的定位分析

背景 通过性能监控发现上线服务器cpu某核占用率已经达到了100%,而且是由我们的某个核心服务导致的。幸亏由于我们的服务进程由多个相同worker(线程)调度承担的,所以除了CPU占用率高之外,并没有对服务造成影响。随着上次我们找到那个吃IO的罪犯,这次我们要追捕的是潜伏在团体中的特务,更加惊险...

2019-07-04 09:28:03

阅读数 77

评论数 1

一次 Java 内存泄漏排查过程,学习学习

人人都会犯错,但一些错误是如此的荒谬,我想不通怎么会有人犯这种错误。更没想到的是,这种事竟发生在了我们身上。当然,这种东西只有事后才能发现真相。接下来,我将讲述一系列最近在我们一个应用上犯过的这种错误。最有意思的是,一开始的迹象揭示的问题,与实际发生的问题完全不同。 在一个凄凉的午夜 午夜刚过...

2019-07-03 09:17:01

阅读数 93

评论数 1

必备面试题:系统CPU飙高和GC频繁,如何排查?

来源:http://t.cn/EI9JdBu 处理过线上问题的同学基本上都会遇到系统突然运行缓慢,CPU 100%,以及Full GC次数过多的问题。当然,这些问题的最终导致的直观现象就是系统运行缓慢,并且有大量的报警。本文主要针对系统运行缓慢这一问题,提供该问题的排查思路,从而定位出问题的代...

2019-07-02 10:35:54

阅读数 96

评论数 1

又一次生产 CPU 高负载排查实践

本文经授权转载自微信公众号:crossoverJie 前言 前几日早上打开邮箱收到一封监控报警邮件:某某 ip 服务器 CPU 负载较高,请研发尽快排查解决,发送时间正好是凌晨。 其实早在去年我也处理过类似的问题,不过本次问题产生的原因却和上次不太一样,大家可以接着往下看。 问题分析 ...

2019-06-30 15:31:01

阅读数 61

评论数 0

很慌!一次惊心动魄的服务器误删文件的恢复过程

来源:https://dwz.cn/xZFW4J8S 经历了两天不懈努力,终于恢复了一次误操作删除的生产服务器数据。对本次事故过程和解决办法记录在此,警醒自己,也提示别人莫犯此错。也希望遇到问题的朋友能找到一丝灵感解决问题。 事故背景 安排一个妹子在一台生产服务器上安装Oracle,妹子边研...

2019-06-28 09:01:23

阅读数 60

评论数 0

一次心惊肉跳的服务器误删文件的恢复过程

经历了两天不懈努力,终于恢复了一次误操作删除的生产服务器数据。对本次事故过程和解决办法记录在此,警醒自己,也提示别人莫犯此错。也希望遇到问题的朋友能找到一丝灵感解决问题。 事故背景 安排一个妹子在一台生产服务器上安装Oracle,妹子边研究边安装,感觉装的不对,准备卸载重新安装。从网上找到卸...

2019-06-03 19:36:48

阅读数 99

评论数 0

当前很多新技术本质上都在解决运维问题丨运维十年回顾

作者 | 赵成 编辑 | 张婵 此文系 QCon 十周年特别策划《技术十年》系列文章,在技术发展 10 年这个特殊的时间节点上,我们邀请了蘑菇街技术总监赵成来谈谈他在过去十年间的感受。一起回顾一下运维行业十年来的发展变化和趋势,以及这中间的演进逻辑,以期给更多的运维同行一个参考。 很高兴...

2019-05-05 08:21:29

阅读数 306

评论数 0

2019年DevOps实践最有价值的技能Top 8

2018年DevOps世界出现了一股Kubernetes浪潮,几乎每个供应商都开发了自己的Kubernetes产品,例如NetApp Kubernetes,Puppet DevOps仪表板,RedHat的OpenShift 等等。 RedHat的DevOps认证专家Shane Boulden,列...

2019-04-29 14:46:53

阅读数 135

评论数 0

备战618,京东如何保障系统稳定性?

作者 | 张松然,京东集团商家研发部技术专家 审校 | 王洪涛 每年的 618 大促都是一场技术团队大练兵的时候。本文介绍了京东是如何备战 618,保障系统稳定性的。 每年 618 的大促都是一场技术团队大练兵的时候。作为技术研发人员,在这场战斗中,加深了对线上系统的敬畏之心,通过系统的备...

2019-04-25 17:03:44

阅读数 187

评论数 0

阿里巴巴是如何管理测试环境的?

来源 | 公众号:云效(ID: ali_yunxiao) 作者 | 林帆(花名金戟) 正式环境的稳定性,除去软件自身的质量因素,主要与运行的主机、网络等基础设施相关,而测试环境的稳定性则更多受到人为因素影响。由于频繁的版本变更,以及部署未经充分验证的代码,测试环境出故障的情况屡见不鲜。本文介...

2019-04-25 16:22:10

阅读数 126

评论数 1

知乎部署系统演进

作者 | Iven Hsu 来源 | 知乎专栏 本文将从部署系统的角度,介绍了知乎应用平台从无到有的演进过程。 应用部署是软件开发中重要的一环,保持快速迭代、持续部署,减少变更和试错成本,对于互联网公司尤为重要。本文将从部署系统的角度,介绍知乎应用平台从无到有的演进过程,希望可以对大家有所...

2019-04-17 15:44:51

阅读数 104

评论数 0

如何从零开始搭建 CI/CD 流水线

来源 | Saurabh Kulshrestha 译者 | 徐进 持续集成和持续部署成为现代 DevOps 趋势下的重要环节,很多角色岗位都要求 CI/CD 的相关技能。本文介绍了什么是 CI/CD 流水线,以及如何从零构建 CI/CD 流水线 在当前 DevOps 的趋势下,持续集成(C...

2019-04-10 14:24:51

阅读数 461

评论数 0

持续集成工具Jenkins看这篇就够啦!

本文以基于当前最新的LTS版本2.164.1,理论上适应于Jenkins 2.x所有版本。 一、下载 前往Jenkins官网[1],按需下载。如用于生产,建议下载Long-term Support (LTS)版本,这样能够获得相对长期的维护;如想体验最新的功能,可尝试Weekly版本。 可...

2019-03-24 11:15:21

阅读数 343

评论数 0

小米自动化运维平台演进设计思路

嘉宾 | 孙寅 编辑 | 张婵 小米自动化运维平台建设大致分为三个时期,整体建设的规划比较清晰,能够一以贯之。本文介绍了小米自动化运维平台的演进思路。 现如今,随着云计算和分布式的落地和发展,越来越多的服务器都转到云上,微服务架构的落地也让现在的 IT 系统架构越来越复杂。我们的服务、应用所...

2019-03-22 09:14:19

阅读数 203

评论数 0

应用迁移至K8S七步工作法!

【前言】 2018年我们团队辅助多家公司将应用迁移到了Kubernetes集群中,总结了应用迁移至K8S的七步工作法,这七步工作法不仅仅可以平滑的迁移应用,最重要的是可以让开发、运维、测试人员循序渐进的学习和掌握Kubernetes。 第一步:将应用封装进容器 应用容器化是迁移的第...

2019-03-09 15:10:51

阅读数 487

评论数 1

微服务为什么一定要用docker

引言 早在2013年的时候,docker就已经发行,然而那会还是很少人了解docker。一直到2014年,Martin Fowler提出了微服务的概念,两个不相干的技术终于走在了一起,创造了今天的辉煌! 近几年来,很多互联网关系开始跟风,构建docker+微服务的架构体系。然而,根据笔者观察发现...

2019-02-28 08:50:35

阅读数 268

评论数 0

京东物流仓储系统618大促保障背后的运维秘诀

前言 京东物流极速的购物体验背后隐藏着怎样的秘诀?仓储和配送时效是其中最为关键的一环。京东物流超强仓配体系,特别是在电商行业中独有的仓储系统,在其中起到了决定性的作用。 当前京东的库房已经遍布全国,京东仓储管理系统(简称WMS系统)是最核心的生产系统,涵盖了从入库,复核,打包,出库、库存和报表...

2018-12-02 12:09:10

阅读数 1194

评论数 0

节省3500万的背后,运维如何兼顾成本与效率?

讲师介绍 籍鑫璞 奇虎360  智能运维项目技术负责人 360机器学习工程师,2016年加入360后一直从事与智能运维相关的工作,致力于用AI手段解决运维场景下的各种疑难杂症。 从运维成本和效率两方面发力,以达到节省资源、提高效率的目的。 今天我们要分享的是近几年我...

2018-11-22 09:58:25

阅读数 1981

评论数 0

提示
确定要删除当前文章?
取消 删除