系统运维基础
一、运维等级
- 系统备份
- 日志轮换
- 安全措施
- 登陆权限
- 资源、网络监控
二、监控策略
1. 定义报警优先级
(1) 出故障报警
- Ping 不通
- 网页超时
- Socket无法连接
(2) 按返回状态找问题
通过Ping延迟 、访问网页迟延时间等
2. 定义告警信息内容标准
- 邮件内容定义
- 短信内容定义
3. 脚本编写
4. 自动恢复
三、监控对象
1. 服务器监控
2. 应用程序监控
3. 数据库监控
- 表/表空间使用情况
- 死锁
- 错误日志
- 性能信息
4. 网络监控
四、工具集
1. 商业免费
- 百度云观测
百度云观测是百度推出的一款云服务产品,类似于360云监控、阿里云监控,主要是为站长提供免费的一站式网站监测、预警服务,功能覆盖网站运行状况、安全和访问速度等多个方面。 360云监控
360网站服务监控是一款面向广大站长的网站监控产品,提供免费的网站、服务器监控。安全宝
- 监控宝(云智慧)
- 阿里云监控(自家产品)
阿里云监控是一款免费网站监控产品,可监控站点和服务器,并提供多种告警方式:短信,旺旺,邮件。 - 斗波服务器监控
- 安全狗
- 云盾
- AnyView(网络警)
- 西西服务器流量监控管家
2. 免费开源
- Cacti
- Nagios
Nagios是一款开源的企业级监控系统,能够实现对系统CPU、磁盘、网络等方面参数的基本系统监控,以及 SMTP,POP3,HTTP,NNTP等各种基本的服务类型。另外通过安装插件和编写监控脚本,用户可以实现应用监控,并针对大量的监控主机和多个对象 部署层次化监控架构。 - Ganglia
Ganglia是加州大学伯克利分校发起的一个开源集群监控项目,设计之初是用于监控数以千计的网络节点。Ganglia是一个跨平台可扩展的,高性能计算系统下的分布式监控系统。它已被广泛移植到各种操作系统和处理器架构上。 - ganglia
- zabbix
Zabbix是一个基于WEB界面的提供分布式系统监控以及网络监控功能的企业级开源运维平台,也是目前国内互联网用户中使用最广的监控软件,云智慧遇到的85%以上用户在使用Zabbix做监控解决方案。 - Pingdom
- Munin
- monitorix
- MRTG
- Observer
- Zenoss
Zenoss Core是Zenoss的开源版本,其商用版本为ZenossEnterprise。作为企业级智能监控软件,Zenoss Core允许IT管理员依靠单一的WEB控制台来监控网络架构的状态和健康度。Zenoss Core的强大能力来自于深入的列表与配置管理数据库,以发现和管理公司IT环境的各类资产。Zenoss同时提供与CMDB关联的事件和错误管理系统, 以协助提高各类事件和提醒的管理效率。 - Collected
- Argus
- Monit
- Graphite
- Linux-dash
- Simple Server Monitor
- sshtop
- Open TSDB
使用hbase作为存储中心,可须采样,可以完整 - Watchlist
查看VMWare主机和虚拟机状况 - Open-falcon
Open-falcon是小米运维团队从互联网公司的需求出发,根据多年的运维经验,结合SRE、SA、DEVS的使用经验和反馈,开发的一套面向互联网的企业级开源监控产品。
3. 商业收费
- sum服务器监控软件
- PRTG_Network_Monitor
- www.create-china.com.cn
- 网络眼睛服务器监控系统
- 迈克菲Secure技术
- 灵动服务器监控
- OpManager
- rpc.networkbech.com
- SANGFOR
- www.chaoji.com
- 清竹服务器监控系统
- Site24x7
- 海思科服务器监控管理软件(www.deskview.com.cn)
- 应用系统监控服务(www.longtelchina.com)
- 机房监控系统一体化解决方案(www.macrounion.com)
- 分布式数字监控平台(www.csydxx.com)
- web服务监控(5istudio)
- 融智兴华
- 机房监控-机房环境监控系统-IDC机房集中监控(www.create-china.com.cn)
- (www.idccrm.cn)
- Cyberoam安全产品(http://www.cyberoam.com/cn/productoverview.html)
- ChinaIDS非法信息系统(chinaids.net)
- 监控宝
监控宝是云智慧为用户提供IT性能监控(IT Performance Monitoring)的SaaS产品
4. Hyperic HQ、Monitorix、Opennms和开源网管软件。
- http://developer.baidu.com/apm/
- http://data.tsci.com.cn/News/HTM/20141104/1443115.htm
- http://www.oneapm.com
- http://network.51cto.com/art/201303/386554.htm
- http://www.zohocorp.com.cn/manageengine/application-performance-management.html
本文内容主要来源 :
http://blog.csdn.net/enweitech/article/details/47081879
运维学习路线图
一、 初级入门:
- Linux基础知识、基本命令(起源、组成、常用命令如cp、ls、file、mkdir等常见操作命令)
- Linux用户及权限基础
- Linux系统进程管理进阶
- linux高效文本、文件处理命令(vim、grep、sed、awk、find等命令)
- shell脚本入门(可边练习边学习)
二、 中级进阶
中级进阶需要在充分了解linux原理和基础知识之后,对上层的应用和服务进行深入学习,其中说到服务肯定涉及到网络的相关知识,是需要花时间学习的。
1. TCP/IP网络基础(差不多CCNA、NP的知识就够用)
2. Linux企业常用服务(如dns、http、ftp、mail、nfs等)
3. Linux企业级安全原理和防范技巧(系统性能/安全、安全威胁模型和保护方法
4. 加密/解密原理及数据安全、系统服务访问控制及服务安全基础
5. iptables安全策略构建
6. shell脚本进阶(主要是结合一些应用,写一些案例)
7. MySQL应用原理及管理入门(能管理和搭建一个个人博客站点)
学到这里,掌握的基本技能,已经够用了,已经能做一些基础的运维工作和简单维护了。
三、 高级提升
- http服务代理缓存加速(其中主要学习varnish、nginx缓存系统,要对CDN的知识有所了解。)
- 企业级负载集群(其中主要学习nginx、haproxy、lvs要对主要知识熟练掌握,对负载均衡算法有清晰认识,)
- 企业级高可用集群 (其中需要对keepalived,heartbeat等进行深入讲解)
- 运维监控zabbix详解(主要是zabbix、cacti、nagios等监控系统,现在用的比较多的是zabbix)
- 运维自动化学习(需要学一些开源运维自动化工具的使用如ansible、puppet、cobbler等运维自动化工具)
四、资深方向进阶
- 大数据方向(需要对hadoop、storm等常见开源大数据系统需要深入了解)
- 云计算方向(主要是openstack这套东西,当然像一些kvm等虚拟化技术,也是需要掌握的,现在docker也比较流行)
- 运维开发(主要是python运维开发)
- 自动化运维(在之前自动化基础上做深入)
- 运维架构师(主要需要广度,差不多5年左右以上经验,可以担当此职位)