团队线上故障处理模板(SRE必收藏)

发布于 2021-10-13 07:36

持续交付实践指南
分享持续交付的实践经验、软件工程感悟
69篇原创内容

如果对于生产环境的故障没有一个提前的准备,出现故障时,团队必定手忙脚乱。前段时间,笔者设计了一个线上故障处理的流程模板。当出现故障时,根据这个模板创建一个故障单,然后团队的其他人各司其职,将自己的那部分信息填到故障单中。方便排查人根据这些信息排查故障的根因。

当然,这个故障单应该是可以自动化生成的,但是,并不是每个团队一开始就有这样的能力去建设。所以,小团队时,手工创建这个故障单也是可以的。

同时,你也会发现,这个故障处理模板很大程度上,其实是一个初级的AIOps。

以下是故障单的内容:

事故业务现象

<由谁在什么时间点报什么问题,尽量详细,比如设备id,用户id等>

事件发生频率

偶发 or 必现

事故复现方法

方便大家复现。

事件时间流记录

以事件时间流的方式记录出现事故前,事故中的操作记录

注:时间能精确就精确

事故排查

最近一次生产环境发布信息

可以包括最后一次发布的系统的commitId,时间,人员等。

测试反馈

测试人员对本次故障处理的反馈。方便开发人员查问题。

应用情况

注意检测内容一定要保留证据

应用的情况由各个应用的owner自行排查。

基础设施情况

基础设施的排查由基础设施团队负责。

事件排查记录

“假设”指的是排查人员对于故障原因的假设。

此表的作用是避免不同的人重复排查同一个假设。同时,也方便其他人验证。

事后总结

事后Action

action必须是可执行的,准确的

事后action可以和看板系统结合,方便跟踪。

持续交付实践指南
分享持续交付的实践经验、软件工程感悟
70篇原创内容

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材