运小白

运维

从理论到案例,请收下这篇Nginx监控运维干货

Nginx特性   作为Web服务器,Nginx不免要与Apache进行比较。相比Apache服务器,Nginx因其采用的异步非阻塞工作模型,使其具备高并发、低资源消耗的特性,高度模块化设计使Nginx具备很好的扩展性;在处理静态文件、反向代理请求等方面,Nginx表现出很大的优势。   ...

2018-12-13 14:27:49

阅读数 34629

评论数 0

最受欢迎的Java web应用服务器之一——Tomcat监控选型及实践

监控选型   Tomcat Manager和Psi-probe是不错的可视化监控工具,能够很好地查看Tomcat状态信息(比如单位时间请求数,线程状态等)。在生产环境中,随着Tomcat实例的不断增加,维护不同实例上的Manager控制台会显得有些繁琐,同时,为了与企业监控系统、运维仪表盘等结...

2019-01-07 15:41:42

阅读数 785

评论数 0

HDFS监控背后那些事儿,构建Hadoop监控共同体

HDFS监控挑战   HDFS是Hadoop生态的一部分,监控方案不仅需适用HDFS,其他组件如Yarn、Hbase、Hive等,也需适用 HDFS API提供的指标较多,部分指标没必要实时采集,但故障时需能快速获取到 Hadoop相关组件的日志,比较重要,如问题定位、...

2018-12-21 09:54:35

阅读数 503

评论数 0

Azure Best Practices Availability Checklist

Application design Avoid any single point of failure. All components, services, resources, and compute instances should be deployed as multiple inst...

2018-12-12 10:22:46

阅读数 90

评论数 0

Elasticsearch运维经验总结

版本说明:5.6.4(要严格注意ES及其插件、第三方工具的版本匹配关系) 系统负载:(日志集群,日均写入10TB,保留7天) 1,出于高可用的考虑,同一个分区的多个副本不会被分配到同一台机器 如下截图所示,Index:queries,设置20副本,5分片。这个集群当前有14个可用数据节点...

2018-12-10 16:38:41

阅读数 3641

评论数 2

如何彻底杜绝磁盘报警

说起磁盘报警,相信大家都是一副不屑的眼神,这种事情,还需要专门写一篇文章?哥们你是闲的慌吧。大家不屑的原因是:磁盘报警没什么了不起,只要服务进入稳定状态,各种磁盘报警都经历一次,查漏补缺,以后磁盘报警就很少了,偶尔半夜来几条,也无伤大雅,搞运维嘛,还能没报警呀。那么这种思路违反了一个原则:同样的错...

2018-12-10 16:36:59

阅读数 307

评论数 0

nginx的日志格式标准

相信互联网的从业人员,或多或少都会接触access_log进行一些信息的提取和分析,那么如何高效的达成目标,今天我就将业务线的实践分享给大家。 虽然我很羡慕那些能够把access_log分析命令写得足够长的人,但我并不建议在线上依然保持如此原始的方式,通过使用格式化的日志格式,我们会获取以下收益...

2018-12-10 16:35:40

阅读数 359

评论数 0

C&C控制服务的设计和侦测方法综述

这篇文章总结了一些我在安全工作里见到过的千奇百怪的C&C控制服务器的设计方法以及对应的侦测方法,在每个C&C控制服务先介绍黑帽部分即针对不同目的的C&C服务器设计方法,再介绍白帽部分即相关侦测办法,大家来感受一下西方的那一套。...

2018-12-10 16:33:52

阅读数 375

评论数 0

预案建设-切流量

预案是指对潜在的突发事件事先制定的应急处理方案,在运维领域,则是为规避故障或尽快从故障中恢复而制定的方案,其目的是第一时间止损、防止局势进一步恶化,以期最大程度地保障业务系统的可用性。 切流量是应对外网故障的有效手段,这篇文章介绍下我们如何建设外网切流量预案。 外网切流量实质上是切换流量入口,...

2018-12-10 16:32:08

阅读数 64

评论数 0

Hadoop预留磁盘空间问题

在hdfs-site.xml中设置dfs.datanode.du.reserved的值,磁盘就会有预留空间: <property> <name>dfs.datanode.du.reserved&...

2018-12-10 16:30:03

阅读数 319

评论数 0

第七章 简单化

作者:John Lunney, Robert van Gent, Scott Ritchie,Diane Bates and Niall Richard Murphy 一个可正常工作的复杂的系统总是从以前可以正常工作的简单系统演变而来的。   ——Gall’s Law 简单化是SR...

2018-12-10 16:12:17

阅读数 46

评论数 0

第六章 减少琐事

Google SRE花费大量时间对系统进行优化,哪怕是很少的性能收益,也会通过工程化方法,与开发一起协同努力,追求卓越。但优化范围不仅局限于服务器资源,SRE的工作耗时也是重点。首先,SRE工作不是琐事,(关于琐事请参阅《SRE:Google运维解密》第5章内容)。本章我们将琐事定义为与维护服务相...

2018-12-10 16:11:15

阅读数 176

评论数 0

第五章 报警 SLO

本章介绍如何在发生重要事件将SLO转换为可操作的报警。我们的第一本SRE和本书都讨论了实施SLO。我们相信,拥有很好的SLO可以衡量你的平台可靠性,正如你的客户所经历的那样,可以为on-call人员该如何迅速做出响应提供最准确的提示。在这里,我们提供了有关如何将这些SLO转换为报警规则的具体指导,...

2018-12-10 16:10:11

阅读数 146

评论数 0

第四章 监控

作者: Steven Thurgood、David Fergusonwith 编辑: Alex Hidalgo、Betsy Beyer 校验:张胜楠,臧万顺,樊帅宇,刁冰雪 监控涉及到多种类型的数据,包括监控指标,纯文本日志,结构化日志,分布式跟踪日志, event introspectio...

2018-12-10 16:09:20

阅读数 64

评论数 0

第三章 SLO工程案例学习

作者:Ben McCormack (Evernote),William Bonnell (The Home Depot), 编辑:Garrett Plasky (Evernote),Alex Hidalgo,Betsy Beyer和Dave Rensin 尽管SRE的许多原则都是在Google...

2018-12-10 15:36:03

阅读数 99

评论数 0

第二章 实施SLO

作者: Steven Thurgood、David Fergusonwith 编辑: Alex Hidalgo、Betsy Beyer 翻译:张翔 校验:孙建刚,徐德昌,张永福,李昊,石文,李佩京 SLO为服务可靠性设定了一个目标级别。它是可靠性决策的关键因素,所以是SRE实践的核心。无论...

2018-12-10 15:35:16

阅读数 101

评论数 0

第一章 SRE与DevOps之间的联系

作者:By Niall Richard Murphy,Liz Fong-Jones, and Betsy Beyer,with Todd Underwood, Laura Nolan,and Dave Rensin 运维是一门很难的学科。 不但没有解决如何很好地运行系统,即便那些已经在使用的最佳...

2018-12-10 15:33:27

阅读数 385

评论数 0

Elasticsearch运维宝典——监控实战篇

监控,是服务可用性保障的关键之一。本文从运维角度,对ES服务监控进行了系统性总结,涵盖监控工具选型、监控采集项筛选介绍,最后列举了几个借助监控发现的ES线上问题。   ES监控概览   针对ES进行监控,主要期望解决这几种场景: ES日常服务巡检,帮助运维开发人员及时发现隐患 ...

2018-12-10 15:21:47

阅读数 32997

评论数 1

你与Kafka监控进阶,只差一个“视角”的距离

Kakfa监控实践 监控工具选择 实际使用中对比了多种Kafka监控工具,最终选择如下几种工具: Kafka Monitor:这是LinkedIn开源的Kafka核心功能监控工具,并且提供了可视化界面。它可以模拟数据生产并消费,基本上覆盖了黑盒监控大部分指标,包括集群核心功能、数据读写、读写...

2018-12-10 15:18:54

阅读数 302

评论数 0

以小见大,从Kafka Monitor源码解读看如何做好黑盒监控

Kafka Monitor介绍   Kafka Monitor是由Linkedin开源的一款非常优秀的针对Kafka的黑盒监控软件。它通过模拟客户端行为,生产和消费数据并采集消息的延迟、错误率和重复率等性能和可用性指标,来达到黑盒监控的目的。   Kafka的主要概念   在介绍Kaf...

2018-12-06 21:36:57

阅读数 35921

评论数 0

提示
确定要删除当前文章?
取消 删除