告警OnCall事件中心建设方法白皮书
告警升级是指在第一责任人收到告警之后没有及时响应,然后系统自动通知二线、三线人员的一种机制。 一线人员没有及时响应的原因可能有很多,比如手机静音了没有听到,晚上睡着了,或者临时出去有事忘 带手机了等等。这个时候系统发现某个告警一直没有恢复,也没有被认领,一段时间之后,就应该通知值 班人员的领导或者二线备份人员,如果二线人员也迟迟没有响应,就应该继续往上升级。 告警升级机制需要认领功能的配合,也就是一线人员收到告警之后要通过某种机制告诉系统:“我已知晓 的告警,还可以有不同的通知媒介,比如飞书、钉 钉、企微、电话、短信、邮箱等。 通知了之后,相关的人可能没注意到,可以配置重复通知,比如 10 分钟之后再次通知。如果多次通知, 接收人一直没有响应,就要启动升级策略了,比如 30 分钟后,告警仍然没有恢复而且没有被人工处理, 则升级到下一个通知环节(通知环节可以有多个)。 通知的触发,最为推荐的是值班表(OnCall 排班是践行0 码力 | 23 页 | 1.75 MB | 1 年前3
共 1 条
- 1