一 业务简介
高德打车是高德地图首创的“聚合打车”模式,一键全网叫车,轻松全网比价,让用户打车更快、更省;推出“好的出租”计划,帮助传统巡游出租车数字化升级,帮助出租车司机增加收入。
高德打车在运力类型上有网约车、出租车、巡改网、城际拼车等;同时订单类型又有实时单、预约单、代叫单、接送机、市内拼车等;当然在车型和价格上也有一定区分。
聚合打车在交易场景下,有众多的状态(乘客下单、司机接单、司机已到达乘车点、开始行程、行程结束、确认费用、支付成功、订单取消、订单关闭等)、多样的车型(有专车、快车、出租车等几种车型,而专车又分舒适型、豪华型、商务型等)、丰富的场景(接送机、企业用车、城际拼车、代驾等),同时对于高德聚合打车模式来说,又有多个KA接入方(每个接入方可能有不同的些许差异)。
(高德打车通用可编排订单状态机引擎设计)
1 稳定性特色
打车业务是有一些明显的业务特色的,在稳定性方面,我总结为两个方面,一个是可预知,另一个是不可抗。
什么是可预知的,比如打车有明显的节假日效应,越是节假日期间用户的出行量越大、对应的打车单量也就越高,尤其是假期的前一天、比如930(十一前一天)、1230(元旦前一天);还有一个大家都比较熟知的早晚高峰效应,上下班的时间是出行的高峰;另外一个是重要考试&会议相关,就是一些大型集中的考试或者一些重要的会议等都会带来出行的高峰。
什么是不可抗呢,比如一家打车APP忽然故障打不了车了,那么用户就会大量涌入到其他出行app上。为什么这么说呢,因为大家的出行意愿是固定的。还有一个就是天气效应,经常会听到一个词,做打车就是『靠天吃饭』的,虽然是一句调侃的话,其实也说明了一旦出行一些恶劣天气,一些用户就会放弃公共交通、步行等方式,而选择打车。
二 稳定性问题
将线上事故或者稳定性问题不完全分个类,大概可分为:变更导致、系统依赖&架构设计问题、意识问题、DB等中间件问题。
三 解决方案
针对以上的稳定性问题,我们整理了从预防、主动发现、自愈、应急等几个方面的一些稳定性建设的解决方案和方向。
四 监控治理
详细监控治理方案可参见:高德打车构建可观测性系统实践
稳定:制定监控重保规范并推广实施,确保核心监控稳定不降级。
监控不准:自研监控日志sdk,耗时逻辑统一实现,规范数据属性:线上流量,压测,测试。统一结果码成功,业务失败,异常,推广接入应用18个。
监控降噪:制定报警规范和技巧,制定降噪方案,推广实施,核心监控准确率90%以上
快:核心秒级+分钟级覆盖,具备1分钟发现问题能力。
统一基础监控模板,应用接入X个,0成本接入新应用,解放生产力。
统一中间件监控,建立各中间件监控模板,0成本克隆即可复用,提效解放生产力。
统一业务指标,请求量(秒级,分钟级),耗时(avg,tp99,max),成功率(接口成功率,业务成功率