自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(111)
  • 收藏
  • 关注

原创 root Agent变更中的继承问题

短期内 有 两个 因为 继承问题 导致 root agent 升级中出现的case。2.继承了一些 进程数限制等。

2023-04-14 10:26:16 164

原创 Jenkins 迁移

Jenkins 迁移

2022-11-22 18:55:01 351

原创 Jenkins 如何 使用企业权限 登录

Jenkins 权限 优化

2022-11-22 14:36:43 1578

原创 sentinel介绍

来源:阿里开源的分布式系统流量控制系统适用:java编写的程序功能:限流(单机)/熔断/系统自适应流量控制/访问控制/网关流控/集群流控/热点参数流控基本工作原理:对于每个资源会自动创建一个Entry的对象,对象的作用有:1)流控规则;2)存储资源的情况(RT、调用链、QPS、线程数量、来源信息等);3)统计各个指标的情况(判断是否触发流控规则,并返回是否放行)被定义的资源被调用前都会在它的Entry对象中被统计,根据统计的结果来判断是否返回异常;比如最简单是通过try…catch…来开启流控

2020-06-08 18:48:53 797

原创 java连接Mysql报错介绍

1、Can’t call commit when autocommit=true:出现此问题的原因在于,当连接的autocommit是true,即没有开启事物,此时此连接调用conn.commit()时会报错。java.sql.SQLException: Can't call commit when autocommit=true at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:935) at com.mysql.j

2020-06-02 19:55:14 1562

原创 Jenkins运维优化

作者:焦振清时间:2017-01-051,/etc/sysconfig/jenkinsJVM性能优化:JENKINS_JAVA_OPTIONS=”-Djava.awt.headless=true -Xms10240m -Xmx10240m -XX:MaxNewSize=1024m -XX:MaxPermSize=1024m”2, systemctl enable jenkins.se...

2020-02-04 13:41:29 681

原创 故障定位能力建设

作者:焦振清时间:2017-01-12对于线上服务故障,作为运维工程师来讲,应对措施建议按照如下顺序进行:预防:控制故障的影响范围,从全局降为局部,如地域,功能维度止损:通过执行预先定制的预案,尝试快速恢复服务定位:通过流程化的手段,快速寻找问题的原因从定位角度讲,我们需要建立以下能力,从而提升定位的效率:所有主机的存活状态,故障主机的特征分析所有服务的存活状态,故障服务/...

2020-02-04 13:40:38 526

原创 在线关闭swap

作者:焦振清时间:2017-07-23服务运行期间,是否可以关闭系统的swap?1,执行swapoff -a后,swap分区逐步减少2,等待一段时间后,swap分区会彻底关闭3,单机可以执行该操作,进行关闭,那么集群是否可以再同一时间进行该操作呢?最好别这样做,因为这样会造成短期内,集群所有机器的CPU都飙升一个核心,对系统压力可能会产生较大的影响...

2020-02-04 13:38:35 4165

原创 nginx的日志格式标准

作者:焦振清时间:2017-11-08相信互联网的从业人员,或多或少都会接触access_log进行一些信息的提取和分析,那么如何高效的达成目标,今天我就将业务线的实践分享给大家。虽然我很羡慕那些能够把access_log分析命令写得足够长的人,但我并不建议在线上依然保持如此原始的方式,通过使用格式化的日志格式,我们会获取以下收益:日志需求分析标准化日志需求分析工具化|插件化...

2020-02-04 13:37:15 646

原创 机器监控项添加建议

作者:焦振清时间:2017-11-08如何解决机器监控遗漏的问题?想必是每一位运维同学都会面临的问题。太多的机器监控内容,可能会产生无效的报警,对生活造成一定影响;太少的机器监控内容,可能会无法及时发现异常,对服务稳定性造成影响;合理的机器监控内容,较高的报警准确度,虽然美好但却需要长期积累;因此,提供一套有效的机器监控标准,并持续优化标准的内容,从而形成良性循环,提高运维效率就...

2020-02-04 13:32:38 345

原创 【转载】Best Practices Availability Checklist

来源:转载时间:2017-11-08Application designAvoid any single point of failure. All components, services, resources, and compute instances should be deployed as multiple instances to prevent a single poin...

2020-02-04 13:31:33 374

原创 Google的基础构架体系

作者:焦振清时间:2017-11-08Borg:分布式任务管理系统;Borgmon:强大的监控报警系统;BigTable:分布式Key/Value存储系统;Google File System:分布式文件系统;PubSub:分布式消息队列系统;MapReduce:分布式大数据批处理系统;F1:分布式数据库;ECatcher:日志收集检索系统;Stubby:Google的RP...

2020-02-04 13:23:47 1814

原创 【转载】C&C控制服务的设计和侦测方法综述

作者:转载时间:2017-11-08这篇文章总结了一些我在安全工作里见到过的千奇百怪的C&C控制服务器的设计方法以及对应的侦测方法,在每个C&C控制服务先介绍黑帽部分即针对不同目的的C&C服务器设计方法,再介绍白帽部分即相关侦测办法,大家来感受一下西方的那一套。这里的白帽部分有一部分侦测方法需要一些数据和统计知识,我也顺便从原理上简单讨论了一下用数据进行安全分析的方法...

2020-02-04 13:22:52 621

原创 【转载】DevOps Checklist

作者:转载时间:2017-11-08DevOps is the integration of development, quality assurance, and IT operations into a unified culture and set of processes for delivering software.Use this checklist as a startin...

2020-02-04 13:19:25 545

原创 【转载】Resiliency checklist

作者:转载时间:2017-11-08Designing your application for resiliency requires planning for and mitigating a variety of failure modes that could occur. Review the items in this checklist against your applica...

2020-02-04 12:57:07 709

原创 【转载】Scalability checklis

作者:焦振清时间:2017-11-08Service designPartition the workload . Design parts of the process to be discrete and decomposable. Minimize the size of each part, while following the usual rules for separati...

2020-02-04 11:51:07 385

转载 部署策略

作者:焦振清时间:2017-11-14参考文章:http://www.jianshu.com/p/076243217952

2020-02-04 11:21:01 580

原创 Linux命令学习模板

作者:焦振清时间:2017-11-20日常工作中,对于之前没有接触过的命令,如何快速有效的学习,每个人可能都有不同的思路,今天,介绍一种比较通用的方法,能够确保大家在短时间内快速掌握一个命令的常用使用方法,并能够快速应用在工作中第一部分:命令的用途说明第二部分:单个参数的用法和使用截图第三部分:组合参数的用法和使用截图第四部分:实际工作中常见的场景第五部分:注意事项(对资源的消耗...

2020-01-20 15:40:12 150

原创 运维工作中常见的一些定律

作者:焦振清时间:2017-11-20以下是我在工作中积累的,和运维工作相关的一些定律,接下来,我会对各个定律分别展开进行阐述,从而加深大家的理解一万小时定律,要在任何领域成为大师,一般需要约10年的艰苦努力墨菲定律,如果事情有变坏的可能,不管这种可能性有多小,它总会发生海恩法则,每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患因果连锁理论,一个最...

2020-01-20 15:39:20 260

转载 Linux系统性能分析工具

作者:焦振清时间:2017-11-21转载:http://www.brendangregg.com/linuxperf.html相关资料:PPT下载 视频地址

2020-01-20 15:36:49 115

原创 硅谷来信精华内容分享

作者:焦振清时间:2017-11-21以下是订阅硅谷来信后,个人比较推荐的章节,和大家一起分享第001封信,不做伪工作者第021封信,西瓜与芝麻第081封信,一流的人能够把二流的项目做成一流第134封信,如何在二流大学接受一流教育第141封信,风险意识第156封信,朴素是富豪的专利第162封信,起跑线和玻璃心第280封信,专业和业务的区别...

2020-01-20 15:34:23 501

翻译 【转载】探秘Facebook的交付工程团队和BT部署系统

作者:焦振清时间:2017-11-21【51CTO 4月12日外电头条】Facebook有一套成熟的软件交付流程,平均30分钟可完成一次升级。这套流程的背后有一个交付工程团队,以及一套BT部署系统。这个系统是如何运作的?Arstechnica网站去拜访了一次这个交付工程团队,揭开了这个系统的神秘面纱——Facebook园区入口Facebook总部设立于加利福尼亚州门洛帕克市,这同一片园区...

2020-01-20 15:32:46 594 2

原创 运维工程师被墨菲定律的各种打脸之BXX问题

作者:焦振清时间:2017-11-24下方的表格是对于某个问题的记录,半年内,记录在案的共计21次。大家可能觉得说,不可思议,其实,只要问题不是故障,很多时候,就是这样的。大家想想,家里灯泡坏了,或者水龙头松了,我们一定会立即修理吗,可能是某次夜里摔倒了,或者水龙头漏水了,才会让我们立即进行修复的。这个问题在七月份一共发生了9次,占总量比例为42.86%,且月末有5天连续发生问题,共计发生...

2020-01-20 15:29:33 338

原创 工作交接checklist

作者:焦振清时间:2017-11-22天下没有不散的筵席,在实际工作中,总会有人因为各种各样的原因而离开。那么交接工作如何顺利有序进行,不仅关乎交接期间的稳定性,也关乎到好聚好散以及离职人员和团队今后的口碑,因此交接工作就显得非常重要了。作为团队来讲,应该将交接工作流程化,从而避免在交接工作中可能发生的各种各样的问题。接下来,和大家分享下,我们在实际交接工作中的一些重点内容:服务预案,...

2020-01-20 15:25:55 1414

原创 运维红线

作者:焦振清时间:2017-11-24很多时候,因为刚刚入职的运维工程师,在态度上较为积极,也希望能够帮助团队多分担一些压力,会因为不太清楚什么事情不该做不能做,而出现好心办坏事的情况,那么,我们就将一般情况下运维一定不能做的事情做一个列举:没有审核流程,直接操作线上数据,包括但不限于增删改查。将公司内部信息对外披露,形式包括但不限于博客,会议,学术交流以及GIT等值班人员...

2020-01-20 15:24:09 2179

原创 运维工程师被墨菲定律的各种打脸之DXX问题

作者:焦振清时间:2017-11-24这次分享的一个case是各家公司都会出现的问题,依然,在问题初期,没有得到足够的重视,直至这个问题的严重性被提升到一定程度后,大家开始救火,蜂拥向前。我总在想,早知如此,何必当初呢。问题的起因是一个查询功能没有被进行请求频率限制,如果用户发起的查询操作次数太多的话,会导致数据库CPU使用率飙升,进而影响到这个系统的所有用户(我们不讨论为什么查询请求一定...

2020-01-20 15:22:14 526

原创 运维工程师被墨菲定律的各种打脸之CXX问题

作者:焦振清时间:2017-11-29这次分享的一个case依然是各家公司都会出现的问题,对于第三方依赖的故障,怎么破?当然,很多人会说,高内聚低耦合,为啥要用第三方呢?只能说理论如此。我们所依赖的第三方,或者是垄断性质的,或者是效率提升性的,总之有他存在的理由。换句话说,你自己做,未必能比他更好,未必会得到大家的认可,不然,估计他也就不会存在了。那怎么破呢?不同的公司解法不同,没有标准...

2020-01-20 13:54:10 142

原创 awk

作者:王文勤时间:2017-12-01概述1.1 功能描述AWK是以行为单位对匹配模式的行进行处理的文本分析工作。1.2 通用格式命令行调用:awk [options] ‘pattern {action} pattern {action}’ filename脚本调用:awk [options] -f script.awk filenamepattern默认情况为匹配整行内...

2020-01-20 11:44:49 84

原创 如何彻底杜绝磁盘报警

作者:焦振清时间:2017-12-04说起磁盘报警,相信大家都是一副不屑的眼神,这种事情,还需要专门写一篇文章?哥们你是闲的慌吧。大家不屑的原因是:磁盘报警没什么了不起,只要服务进入稳定状态,各种磁盘报警都经历一次,查漏补缺,以后磁盘报警就很少了,偶尔半夜来几条,也无伤大雅,搞运维嘛,还能没报警呀。那么这种思路违反了一个原则:同样的错误不能犯两次!并且处理问题太过被动,让问题挨个半夜找上门来...

2020-01-20 11:44:09 321

原创 根因分析实践之极限法

作者:焦振清时间:2017-12-07根因分析(RCA)是一项结构化的问题处理法,用以逐步找出问题的根本原因并加以解决, 而不是仅仅关注问题的表征。在实际工作中,最难的部分是什么叫做根本原因,这一点,没有一个可量化的标准供大家参考,因此很多事情的原因是否为根本原因也就无从判断了。和大家分享一个判断是否为根本原因的方法:极限法。第一个例子,DVD光盘容量为什么不能是无限大的?因为光盘上的...

2020-01-20 11:41:41 1299

原创 Azure可用性保障最佳实践中文版

作者:王文勤时间:2017-12-101,应用程序设计避免任何单点故障所有的组件、服务、资源以及计算节点都应该部署成多个实例,以此来避免单点故障导致可用性受影响。比如虚拟机资源,同一应用的虚拟机要部署成多实例,当单个实例故障时,服务不受影响。认证机制也要避免单点。将应用程序设计为可以通过配置来使用多实例,并将不能自动化的平台改造成能自动检测失败,并将请求跳转到没有失败的实例上。...

2020-01-20 11:38:25 266

原创 我是如何做到五年间电话不漏接的

作者:焦振清时间:2017-12-12应急响应 ,是所有运维工程师都需要面对的问题,每当出现了重大服务故障之时,都需要负责人能够立即响应,并组织团队成员快速恢复服务,在这个时候,运维团队一旦联系不到,那对于服务来讲就是灾难性的后果,而对于运维团队来讲,也就彻底失去大家的信任了。因此,做到实时的电话响应,就是一件非常重要的事情。也会有这样的观点,我只要有足够的责任心,就不会漏接电话的,其实不...

2020-01-20 11:34:10 728 1

原创 基于Jenkins分布式调度管理公有云多租户的架构浅谈

作者:李佩京时间:2017-12-28基于Jenkins分布式集群管理公有云多租户的架构浅谈Jenkins简介Jenkins最开始被称为Hudson,它在持续集成领域的市场份额居于主导地位,是什么使Jenkins如此成功呢?首先,Jenkins拥有良好的扩展性,通过插件能够解决各类场景。其次,Jenkins的开源社区活跃度非常好。Jenkins分布式构建基于Jenkins的分布...

2020-01-20 11:26:41 765

原创 基于puppet分布式集群管理公有云多租户的架构浅谈

作者:樊帅宇时间:2017-12-29一、架构介绍在此架构中,每个租户的业务集群部署一台puppet-master作为自己所在业务集群的puppet的主服务器,在每个业务集群所拥有的云主机上部署puppet-agent,定时向puppet-master进行汇报从而执行相应任务。foreman单独部署,接收每个业务集群中puppet-master收集到的puppet-agent服务器所报...

2020-01-20 11:14:54 499

原创 跨AZ高可用之Elasticsearch实践

作者:SUNNY时间:2018-01-04AZ,AWS提出的,可用区(Availability Zone),在每个区域(Region)都有多个可用区。AZ之间物理隔离,独立供电,一个AZ故障,不会影响另外一个AZ,但AZ之间是连通,且网络耗时低。简单可以将AZ理解为独立机房或逻辑机房,这样可以利用AZ的隔离性,对业务进行跨AZ部署,实现高可用。本文先是简单介绍了跨AZ服务部署的一些方案,之...

2020-01-20 10:57:53 1244

原创 Puppet核心资源类型浅析

作者:刁冰雪时间:2018-02-02一、核心类型——PACKAGE典型案例说明1、使用latest将软件持续安装为最新版使用yum源安装软件时,package类型提供了两种软件安装的方式,present和latest。使用present参数实现软件安装时,仅确保该软件存在即可,不关注版本,只有该软件不存在时才会进行安装。而使用latest参数实现软件安装时,当软件源中的安装包有版本更...

2020-01-20 10:53:18 534 1

原创 运维书籍推荐

作者:焦振清时间:2018-03-24推荐书单:SRE:Google运维解密高效能人士的七个习惯Kafka权威指南深度剖析Hadoop HDFS

2020-01-20 10:36:22 1200

原创 预案建设-切流量

作者:张胜楠时间:2018-04-11预案是指对潜在的突发事件事先制定的应急处理方案,在运维领域,则是为规避故障或尽快从故障中恢复而制定的方案,其目的是第一时间止损、防止局势进一步恶化,以期最大程度地保障业务系统的可用性。切流量是应对外网故障的有效手段,这篇文章介绍下我们如何建设外网切流量预案。外网切流量实质上是切换流量入口,而流量入口更多的则体现为IP,所以切流量其实说的就是切换IP。...

2020-01-20 10:34:57 771

原创 Hadoop预留磁盘空间问题

作者:焦振清时间:2018-04-12在hdfs-site.xml中设置dfs.datanode.du.reserved的值,磁盘就会有预留空间:<property> <name>dfs.datanode.du.reserved</name> <value>2147483648</value> #2GB ...

2020-01-20 10:30:54 848

原创 常见应用发布方式浅析

作者:齐凯华,王文勤时间:2018-04-12一、部署方式浅析1.滚动部署1.1滚动部署介绍1.1.1 基本概念滚动部署:逐步替换线上应用实例的版本1.1.2 实现方式从LB控制用户到应用实例的请求,如某服务共计10个实例,每次更新两2个实例,则首先从负载均衡上摘除两个实例并更新,升级完毕后在LB中重新接入这两个实例,然后依次升级全部实例。(图1)(图2)(图3)1...

2020-01-19 18:08:48 2211

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除