智能运维-CSDN博客

原创 root Agent变更中的继承问题

短期内有两个因为继承问题导致 root agent 升级中出现的case。2.继承了一些进程数限制等。

2023-04-14 10:26:16 164

来源：阿里开源的分布式系统流量控制系统适用：java编写的程序功能：限流(单机)/熔断/系统自适应流量控制/访问控制/网关流控/集群流控/热点参数流控基本工作原理：对于每个资源会自动创建一个Entry的对象，对象的作用有：1）流控规则；2）存储资源的情况(RT、调用链、QPS、线程数量、来源信息等)；3）统计各个指标的情况（判断是否触发流控规则，并返回是否放行）被定义的资源被调用前都会在它的Entry对象中被统计，根据统计的结果来判断是否返回异常；比如最简单是通过try…catch…来开启流控

2020-06-08 18:48:53 797

原创 java连接Mysql报错介绍

1、Can’t call commit when autocommit=true：出现此问题的原因在于，当连接的autocommit是true，即没有开启事物，此时此连接调用conn.commit()时会报错。java.sql.SQLException: Can't call commit when autocommit=true at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:935) at com.mysql.j

2020-06-02 19:55:14 1562

原创 Jenkins运维优化

作者：焦振清时间：2017-01-051，/etc/sysconfig/jenkinsJVM性能优化：JENKINS_JAVA_OPTIONS=”-Djava.awt.headless=true -Xms10240m -Xmx10240m -XX:MaxNewSize=1024m -XX:MaxPermSize=1024m”2, systemctl enable jenkins.se...

2020-02-04 13:41:29 681

原创故障定位能力建设

作者：焦振清时间：2017-01-12对于线上服务故障，作为运维工程师来讲，应对措施建议按照如下顺序进行：预防：控制故障的影响范围，从全局降为局部，如地域，功能维度止损：通过执行预先定制的预案，尝试快速恢复服务定位：通过流程化的手段，快速寻找问题的原因从定位角度讲，我们需要建立以下能力，从而提升定位的效率：所有主机的存活状态，故障主机的特征分析所有服务的存活状态，故障服务/...

2020-02-04 13:40:38 526

原创在线关闭swap

作者：焦振清时间：2017-07-23服务运行期间，是否可以关闭系统的swap？1，执行swapoff -a后，swap分区逐步减少2，等待一段时间后，swap分区会彻底关闭3，单机可以执行该操作，进行关闭，那么集群是否可以再同一时间进行该操作呢？最好别这样做，因为这样会造成短期内，集群所有机器的CPU都飙升一个核心，对系统压力可能会产生较大的影响...

2020-02-04 13:38:35 4165

原创 nginx的日志格式标准

作者：焦振清时间：2017-11-08相信互联网的从业人员，或多或少都会接触access_log进行一些信息的提取和分析，那么如何高效的达成目标，今天我就将业务线的实践分享给大家。虽然我很羡慕那些能够把access_log分析命令写得足够长的人，但我并不建议在线上依然保持如此原始的方式，通过使用格式化的日志格式，我们会获取以下收益：日志需求分析标准化日志需求分析工具化|插件化...

2020-02-04 13:37:15 646

原创机器监控项添加建议

作者：焦振清时间：2017-11-08如何解决机器监控遗漏的问题？想必是每一位运维同学都会面临的问题。太多的机器监控内容，可能会产生无效的报警，对生活造成一定影响；太少的机器监控内容，可能会无法及时发现异常，对服务稳定性造成影响；合理的机器监控内容，较高的报警准确度，虽然美好但却需要长期积累；因此，提供一套有效的机器监控标准，并持续优化标准的内容，从而形成良性循环，提高运维效率就...

2020-02-04 13:32:38 345

原创【转载】Best Practices Availability Checklist

来源：转载时间：2017-11-08Application designAvoid any single point of failure. All components, services, resources, and compute instances should be deployed as multiple instances to prevent a single poin...

2020-02-04 13:31:33 374

原创 Google的基础构架体系

作者：焦振清时间：2017-11-08Borg：分布式任务管理系统；Borgmon：强大的监控报警系统；BigTable：分布式Key/Value存储系统；Google File System：分布式文件系统；PubSub：分布式消息队列系统；MapReduce：分布式大数据批处理系统；F1：分布式数据库；ECatcher：日志收集检索系统；Stubby：Google的RP...

2020-02-04 13:23:47 1814

原创【转载】C&C控制服务的设计和侦测方法综述

作者：转载时间：2017-11-08这篇文章总结了一些我在安全工作里见到过的千奇百怪的C&C控制服务器的设计方法以及对应的侦测方法，在每个C&C控制服务先介绍黑帽部分即针对不同目的的C&C服务器设计方法，再介绍白帽部分即相关侦测办法，大家来感受一下西方的那一套。这里的白帽部分有一部分侦测方法需要一些数据和统计知识，我也顺便从原理上简单讨论了一下用数据进行安全分析的方法...

2020-02-04 13:22:52 621

原创【转载】DevOps Checklist

作者：转载时间：2017-11-08DevOps is the integration of development, quality assurance, and IT operations into a unified culture and set of processes for delivering software.Use this checklist as a startin...

2020-02-04 13:19:25 545

原创【转载】Resiliency checklist

作者：转载时间：2017-11-08Designing your application for resiliency requires planning for and mitigating a variety of failure modes that could occur. Review the items in this checklist against your applica...

2020-02-04 12:57:07 709

原创【转载】Scalability checklis

作者：焦振清时间：2017-11-08Service designPartition the workload . Design parts of the process to be discrete and decomposable. Minimize the size of each part, while following the usual rules for separati...

2020-02-04 11:51:07 385

转载部署策略

作者：焦振清时间：2017-11-14参考文章：http://www.jianshu.com/p/076243217952

2020-02-04 11:21:01 580

原创 Linux命令学习模板

作者：焦振清时间：2017-11-20日常工作中，对于之前没有接触过的命令，如何快速有效的学习，每个人可能都有不同的思路，今天，介绍一种比较通用的方法，能够确保大家在短时间内快速掌握一个命令的常用使用方法，并能够快速应用在工作中第一部分：命令的用途说明第二部分：单个参数的用法和使用截图第三部分：组合参数的用法和使用截图第四部分：实际工作中常见的场景第五部分：注意事项（对资源的消耗...

2020-01-20 15:40:12 150

原创运维工作中常见的一些定律

作者：焦振清时间：2017-11-20以下是我在工作中积累的，和运维工作相关的一些定律，接下来，我会对各个定律分别展开进行阐述，从而加深大家的理解一万小时定律，要在任何领域成为大师，一般需要约10年的艰苦努力墨菲定律，如果事情有变坏的可能，不管这种可能性有多小，它总会发生海恩法则，每一起严重事故的背后，必然有29次轻微事故和300起未遂先兆以及1000起事故隐患因果连锁理论，一个最...

2020-01-20 15:39:20 260

转载 Linux系统性能分析工具

作者：焦振清时间：2017-11-21转载：http://www.brendangregg.com/linuxperf.html相关资料：PPT下载视频地址

2020-01-20 15:36:49 115

原创硅谷来信精华内容分享

作者：焦振清时间：2017-11-21以下是订阅硅谷来信后，个人比较推荐的章节，和大家一起分享第001封信，不做伪工作者第021封信，西瓜与芝麻第081封信，一流的人能够把二流的项目做成一流第134封信，如何在二流大学接受一流教育第141封信，风险意识第156封信，朴素是富豪的专利第162封信，起跑线和玻璃心第280封信，专业和业务的区别...

2020-01-20 15:34:23 501

翻译【转载】探秘Facebook的交付工程团队和BT部署系统

作者：焦振清时间：2017-11-21【51CTO 4月12日外电头条】Facebook有一套成熟的软件交付流程，平均30分钟可完成一次升级。这套流程的背后有一个交付工程团队，以及一套BT部署系统。这个系统是如何运作的？Arstechnica网站去拜访了一次这个交付工程团队，揭开了这个系统的神秘面纱——Facebook园区入口Facebook总部设立于加利福尼亚州门洛帕克市，这同一片园区...

2020-01-20 15:32:46 594 2

原创运维工程师被墨菲定律的各种打脸之BXX问题

作者：焦振清时间：2017-11-24下方的表格是对于某个问题的记录，半年内，记录在案的共计21次。大家可能觉得说，不可思议，其实，只要问题不是故障，很多时候，就是这样的。大家想想，家里灯泡坏了，或者水龙头松了，我们一定会立即修理吗，可能是某次夜里摔倒了，或者水龙头漏水了，才会让我们立即进行修复的。这个问题在七月份一共发生了9次，占总量比例为42.86%，且月末有5天连续发生问题，共计发生...

2020-01-20 15:29:33 338

原创工作交接checklist

作者：焦振清时间：2017-11-22天下没有不散的筵席，在实际工作中，总会有人因为各种各样的原因而离开。那么交接工作如何顺利有序进行，不仅关乎交接期间的稳定性，也关乎到好聚好散以及离职人员和团队今后的口碑，因此交接工作就显得非常重要了。作为团队来讲，应该将交接工作流程化，从而避免在交接工作中可能发生的各种各样的问题。接下来，和大家分享下，我们在实际交接工作中的一些重点内容：服务预案，...

2020-01-20 15:25:55 1414

原创运维红线

作者：焦振清时间：2017-11-24很多时候，因为刚刚入职的运维工程师，在态度上较为积极，也希望能够帮助团队多分担一些压力，会因为不太清楚什么事情不该做不能做，而出现好心办坏事的情况，那么，我们就将一般情况下运维一定不能做的事情做一个列举：没有审核流程，直接操作线上数据，包括但不限于增删改查。将公司内部信息对外披露，形式包括但不限于博客，会议，学术交流以及GIT等值班人员...

2020-01-20 15:24:09 2179

原创运维工程师被墨菲定律的各种打脸之DXX问题

作者：焦振清时间：2017-11-24这次分享的一个case是各家公司都会出现的问题，依然，在问题初期，没有得到足够的重视，直至这个问题的严重性被提升到一定程度后，大家开始救火，蜂拥向前。我总在想，早知如此，何必当初呢。问题的起因是一个查询功能没有被进行请求频率限制，如果用户发起的查询操作次数太多的话，会导致数据库CPU使用率飙升，进而影响到这个系统的所有用户（我们不讨论为什么查询请求一定...

2020-01-20 15:22:14 526

原创运维工程师被墨菲定律的各种打脸之CXX问题

作者：焦振清时间：2017-11-29这次分享的一个case依然是各家公司都会出现的问题，对于第三方依赖的故障，怎么破？当然，很多人会说，高内聚低耦合，为啥要用第三方呢？只能说理论如此。我们所依赖的第三方，或者是垄断性质的，或者是效率提升性的，总之有他存在的理由。换句话说，你自己做，未必能比他更好，未必会得到大家的认可，不然，估计他也就不会存在了。那怎么破呢？不同的公司解法不同，没有标准...

2020-01-20 13:54:10 142

原创 awk

作者：王文勤时间：2017-12-01概述1.1 功能描述AWK是以行为单位对匹配模式的行进行处理的文本分析工作。1.2 通用格式命令行调用：awk [options] ‘pattern {action} pattern {action}’ filename脚本调用：awk [options] -f script.awk filenamepattern默认情况为匹配整行内...

2020-01-20 11:44:49 84

原创如何彻底杜绝磁盘报警

作者：焦振清时间：2017-12-04说起磁盘报警，相信大家都是一副不屑的眼神，这种事情，还需要专门写一篇文章？哥们你是闲的慌吧。大家不屑的原因是：磁盘报警没什么了不起，只要服务进入稳定状态，各种磁盘报警都经历一次，查漏补缺，以后磁盘报警就很少了，偶尔半夜来几条，也无伤大雅，搞运维嘛，还能没报警呀。那么这种思路违反了一个原则：同样的错误不能犯两次！并且处理问题太过被动，让问题挨个半夜找上门来...

2020-01-20 11:44:09 321

原创根因分析实践之极限法

作者：焦振清时间：2017-12-07根因分析（RCA）是一项结构化的问题处理法，用以逐步找出问题的根本原因并加以解决，而不是仅仅关注问题的表征。在实际工作中，最难的部分是什么叫做根本原因，这一点，没有一个可量化的标准供大家参考，因此很多事情的原因是否为根本原因也就无从判断了。和大家分享一个判断是否为根本原因的方法：极限法。第一个例子，DVD光盘容量为什么不能是无限大的？因为光盘上的...

2020-01-20 11:41:41 1299

原创 Azure可用性保障最佳实践中文版

作者：王文勤时间：2017-12-101，应用程序设计避免任何单点故障所有的组件、服务、资源以及计算节点都应该部署成多个实例，以此来避免单点故障导致可用性受影响。比如虚拟机资源，同一应用的虚拟机要部署成多实例，当单个实例故障时，服务不受影响。认证机制也要避免单点。将应用程序设计为可以通过配置来使用多实例，并将不能自动化的平台改造成能自动检测失败，并将请求跳转到没有失败的实例上。...

2020-01-20 11:38:25 266

原创我是如何做到五年间电话不漏接的

作者：焦振清时间：2017-12-12应急响应，是所有运维工程师都需要面对的问题，每当出现了重大服务故障之时，都需要负责人能够立即响应，并组织团队成员快速恢复服务，在这个时候，运维团队一旦联系不到，那对于服务来讲就是灾难性的后果，而对于运维团队来讲，也就彻底失去大家的信任了。因此，做到实时的电话响应，就是一件非常重要的事情。也会有这样的观点，我只要有足够的责任心，就不会漏接电话的，其实不...

2020-01-20 11:34:10 728 1

原创基于Jenkins分布式调度管理公有云多租户的架构浅谈

作者：李佩京时间：2017-12-28基于Jenkins分布式集群管理公有云多租户的架构浅谈Jenkins简介Jenkins最开始被称为Hudson，它在持续集成领域的市场份额居于主导地位，是什么使Jenkins如此成功呢？首先，Jenkins拥有良好的扩展性，通过插件能够解决各类场景。其次，Jenkins的开源社区活跃度非常好。Jenkins分布式构建基于Jenkins的分布...

2020-01-20 11:26:41 765

原创基于puppet分布式集群管理公有云多租户的架构浅谈

作者：樊帅宇时间：2017-12-29一、架构介绍在此架构中，每个租户的业务集群部署一台puppet-master作为自己所在业务集群的puppet的主服务器，在每个业务集群所拥有的云主机上部署puppet-agent，定时向puppet-master进行汇报从而执行相应任务。foreman单独部署，接收每个业务集群中puppet-master收集到的puppet-agent服务器所报...

2020-01-20 11:14:54 499

原创跨AZ高可用之Elasticsearch实践

作者：SUNNY时间：2018-01-04AZ，AWS提出的，可用区（Availability Zone），在每个区域（Region）都有多个可用区。AZ之间物理隔离，独立供电，一个AZ故障，不会影响另外一个AZ，但AZ之间是连通，且网络耗时低。简单可以将AZ理解为独立机房或逻辑机房，这样可以利用AZ的隔离性，对业务进行跨AZ部署，实现高可用。本文先是简单介绍了跨AZ服务部署的一些方案，之...

2020-01-20 10:57:53 1244

原创 Puppet核心资源类型浅析

作者：刁冰雪时间：2018-02-02一、核心类型——PACKAGE典型案例说明1、使用latest将软件持续安装为最新版使用yum源安装软件时，package类型提供了两种软件安装的方式，present和latest。使用present参数实现软件安装时，仅确保该软件存在即可，不关注版本，只有该软件不存在时才会进行安装。而使用latest参数实现软件安装时，当软件源中的安装包有版本更...

2020-01-20 10:53:18 534 1

原创运维书籍推荐

作者：焦振清时间：2018-03-24推荐书单：SRE：Google运维解密高效能人士的七个习惯Kafka权威指南深度剖析Hadoop HDFS

2020-01-20 10:36:22 1200

原创预案建设-切流量

作者：张胜楠时间：2018-04-11预案是指对潜在的突发事件事先制定的应急处理方案，在运维领域，则是为规避故障或尽快从故障中恢复而制定的方案，其目的是第一时间止损、防止局势进一步恶化，以期最大程度地保障业务系统的可用性。切流量是应对外网故障的有效手段，这篇文章介绍下我们如何建设外网切流量预案。外网切流量实质上是切换流量入口，而流量入口更多的则体现为IP，所以切流量其实说的就是切换IP。...

2020-01-20 10:34:57 771

原创 Hadoop预留磁盘空间问题

作者：焦振清时间：2018-04-12在hdfs-site.xml中设置dfs.datanode.du.reserved的值，磁盘就会有预留空间：<property> <name>dfs.datanode.du.reserved</name> <value>2147483648</value> #2GB ...

2020-01-20 10:30:54 848

原创常见应用发布方式浅析

作者：齐凯华，王文勤时间：2018-04-12一、部署方式浅析1.滚动部署1.1滚动部署介绍1.1.1 基本概念滚动部署：逐步替换线上应用实例的版本1.1.2 实现方式从LB控制用户到应用实例的请求，如某服务共计10个实例，每次更新两2个实例，则首先从负载均衡上摘除两个实例并更新，升级完毕后在LB中重新接入这两个实例，然后依次升级全部实例。（图1）（图2）（图3）1...

2020-01-19 18:08:48 2211

空空如也

空空如也