事件管理是负责解决IT服务的事件、故障和客户请求等的运维流程。它的目的是尽快恢复被中断或受到影响的IT服务,所以它的特点往往是以解决表征现象为目的,而不在于查找根本原因。
为了有效地解决运维服务中产生的突事件,提高运维服务的质量,为客户提供更优质的信息技术服务建立一个完整的事件管理系统,从而实现:
(1) 减小事件对客户业务建设的影响
(2) 最优化支持资源,提高工作效率
(3) 屏蔽错误事件和服务请求
(4) 根据客户业务系统的轻重缓急解决事件,保障有效IT系统运营
(5) 加强有效监控和及时反馈
(6) 提升用户满意度
(7) 提供管理信息
事件管理覆盖的范围是运维服务的客户。
事件管理的范围包括以下:
-
- 网络与基础设施:如局域网,广域网,机房,电力,空调等;
- 安全事件:如病毒,攻击,泄露等;
- 系统数据库:如操作系统,数据库等;
- 应用系统软硬件:主机,系统,客户网站等;
- 运维服务范围内的咨询,协调处理等。
- 名词术语
故障:任何不属于正常服务运营,导致服务中断或使服务质量明显下降的情况。
事件:包括故障和运维服务范围内的咨询,协调处理等。
运维服务的事件分类主要包括:网络与基础设施,安全事件,系统数据库,应用系统软硬件和范围内的咨询,协调处理等。
一级 | 业务系统重要程度级别定义为高; 有害程序事件、网络攻击事件、信息破坏事件、信息内容安全事件、设备设施故障、灾害性事件和其他信息安全事件造成系统大面积瘫痪,影响业务用户数量>=80%;使其丧失业务处理能力,导致业务中断时间>=2小时;系统关键数据的保密性、完整性、可用性遭到严重破坏。 |
二级 | 业务系统重要程度级别定义为高; 有害程序事件、网络攻击事件、信息破坏事件、信息内容安全事件、设备设施故障、灾害性事件和其他信息安全事件 造成系统长时间中断或局部瘫痪,影响业务用户数量>=50%;中断时间:>=1小时;使其业务处理能力受到极大影响,系统关键数据的保密性、完整性、可用性遭到破坏。 |
三级 | 业务系统定义级别为中;有害程序事件、网络攻击事件、信息破坏事件、信息内容安全事件、设备设施故障、灾害性事件和其他信息安全事件造成造成系统影响业务用户数量>=20%;中断时间:>=0.5小时,明显影响系统效率。 |
四级 | 业务系统定义级别为低;有害程序事件、网络攻击事件、信息破坏事件、信息内容安全事件、设备设施故障、灾害性事件和其他信息安全事件影响业务用户数量<20%;造成中断时间:<0.5小时,影响系统效率,使系统业务处理能力受到影响。 |
处理事件的原则是尽可能减小对业务的影响;
-
-
- 事件管理流程必须包括管理服务事件影响的步骤,比如评估影响、沟通、提供变通方案等,使事件对客户业务活动的影响降至最小;
- 在可能的情况下,应该向客户提供继续进行业务活动的手段,即使降低服务级别,比如禁用一项有错误的功能,目的是将事件对客户业务活动的影响降至最小;
- 当服务级别不能被满足时,应该提前提醒客户,并且对下一步的处理行动达成一致意见。
- 升级原则
-
类别 | 升级策略 |
职能升级 | 若一线支持在职责范围内完成事件诊断,仍未找到相应的解决方案,应立即将故障转给二线支持。 |
若二线支持支持在职责范围内完成事件诊断,仍未找到相应的解决方案,应立即将故障转给三线支持。 | |
层次升级 | 若接近故障的解决期限,故障仍未能解决,应通知更高一级的管理人员。 |
按照商定的升级层次和时间,向用户高层管理人员升级。 |
角色 | 职责 | 职能岗位 |
事件经理 |
| 各负责人 |
服务台 (一线) |
| 客服人员 |
事件分析员 (现场一线、二线、三线) |
| 各部门参与事件分析与解决的人员 一线:服务台和现场人员 二线:运维部门 三线:供应商和研发团队 |
活动 | 描述 | 责任人 | 输入 | 输出 |
1报告事件 |
| 用户 |
|
|
2记录事件请求、维护用户信息 |
| 服务台 |
|
|
3事件分类/优先级确定 |
| 服务台 服务台 |
|
|
4处理解决事件 |
| 服务台 一线支持人员 二线支持人员 运维经理 |
|
|
5关闭事件 |
| 服务台 |
|
|
6事件后续处理 |
| 服务台 运维经理 |
|
|
活动 | 描述 | 责任人 | 输入 | 输出 |
1 分配事件请求 |
| 服务台 |
|
|
2 服务台快速处理事件 |
| 服务台 |
|
|
3 事件分配确认 |
| 一线支持人员 服务台 |
|
|
4 处理事件/提交变更请求 |
| 一线支持人员 |
|
|
5申请二线支持 |
| 一线支持人员 |
|
|
6 事件分配确认 |
| 二线支持人员 |
|
|
7 处理事件/提交变更请求 |
| 二线支持人员 |
|
|
8事件分配确认 |
| 三线支持人员 |
|
|
9 处理事件/提交变更请求 |
| 三线支持人员 |
|
|
10 协调处理未解决事件/事件重新分配 |
| 运维经理 |
|
|
活动 | 描述 | 责任人 | 输入 | 输出 |
1处理事件/提交变更请求 |
| 二线支持人员 |
|
|
2 每月报告中报告该事件 |
| 二线支持人员 |
|
|
3通知网络、系统负责人/三线 |
| 二线支持人员 |
|
|
4 监控重大事件进展 |
| 三线系统责任人 |
|
|
活动 | 描述 | 责任人 | 输入 | 输出 |
1记录事件解决方案 |
| 各事件的解决者 |
|
|
2与用户确认事件已解决 |
| 服务台 |
|
|
3事件状态标记为关闭 |
| 服务台 |
|
|
4回访 |
| 服务台 |
|
|
活动 | 描述 | 责任人 | 输入 | 输出 |
1定期生成事件报告 |
| 运维经理 |
|
|
2审阅事件报告 | 运维经理审阅事件报告,通过事件报告识别问题,并将问题提交到问题管理流程。 | 运维经理 |
|
|