当巡检时发现服务器告警,或者监控触发告警。通过我们进入BMC或者系统进行进一步确认,发现确实存在设备故障,此时我们就需要手动建立incident工单。
常用的平台有jira, servernow和各种开源的工单平台。
Incident 事件工单
1. 基本信息:工单标题应简单明了
2. 故障描述:设备的SN,所处的机位,故障信息,最好是有相应的日志或截图。
3.影响范围:业务影响,严重程度(底到高),时间敏感度等等。
4.当前的处理情况:已尝试,挂起或是临时缓解。
5.附件信息:日志,监控,抓包等等
6.关联工单:是否与其他问题相关,审批信息等等。
大体流程:
- 提交工单 → 2. 分单(自动/人工) → 3. 分析处理(初步判断、协作沟通、制定方案) → 4. 工单状态更新 → 5. 问题解决并关闭工单
最后总结,复盘,更新知识库。
CR 变更
变更分为很多种,资产变更,流程变更等等,这里主要介绍因设备故障,需要维修设备导致的变更。
注意事项:变更操作,需要在非冻结期做。每个公司的冻结期各不相同,一般来说是月初或月底。
1.变更前的准备:why to do
设定目标 → 规划变更流程 → 评估潜在风险 → 制定回滚预案 → 审批确认
2.备份与check(变更前的再一次检查)
3.实施变更:按照撰写的CR流程,开始实施。
4.变更验证:这一步十分重要,功能验证,性能评估(如有必要),日志分析(登录BMC或是登录系统验证)。
5.更新工单:如涉及assect,需要及时更新
6.结单。
注意事项:变更开始时间选择业务低谷期,制作好应急预案,回滚计划。操作前提前告知相关业务部门(如需要设备owner的确认),监控组等等。