团队线上故障处理模板(SRE必收藏)
发布于 2021-10-13 07:36
持续交付实践指南
分享持续交付的实践经验、软件工程感悟
如果对于生产环境的故障没有一个提前的准备,出现故障时,团队必定手忙脚乱。前段时间,笔者设计了一个线上故障处理的流程模板。当出现故障时,根据这个模板创建一个故障单,然后团队的其他人各司其职,将自己的那部分信息填到故障单中。方便排查人根据这些信息排查故障的根因。
当然,这个故障单应该是可以自动化生成的,但是,并不是每个团队一开始就有这样的能力去建设。所以,小团队时,手工创建这个故障单也是可以的。
同时,你也会发现,这个故障处理模板很大程度上,其实是一个初级的AIOps。
以下是故障单的内容:
事故业务现象
<由谁在什么时间点报什么问题,尽量详细,比如设备id,用户id等>
事件发生频率
偶发 or 必现
事故复现方法
方便大家复现。
事件时间流记录
以事件时间流的方式记录出现事故前,事故中的操作记录
注:时间能精确就精确
事故排查
最近一次生产环境发布信息
可以包括最后一次发布的系统的commitId,时间,人员等。
测试反馈
测试人员对本次故障处理的反馈。方便开发人员查问题。
应用情况
注意检测内容一定要保留证据
应用的情况由各个应用的owner自行排查。
基础设施情况
基础设施的排查由基础设施团队负责。
事件排查记录
“假设”指的是排查人员对于故障原因的假设。
此表的作用是避免不同的人重复排查同一个假设。同时,也方便其他人验证。
事后总结
事后Action
action必须是可执行的,准确的
事后action可以和看板系统结合,方便跟踪。
持续交付实践指南
分享持续交付的实践经验、软件工程感悟
本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。
相关素材