告警OnCall事件中心建设方法白皮书
相关联系人,出了问题能够及时找到人,联系不上的话得能直接联系研发领导。 ● 服务相关信息,比如代码仓库、系统架构、依赖哪些服务、依赖哪些系统参数、哪些 JVM 参数、常 见问题还有处理办法等等。 然后进行准入评审及准入测试,如果系统架构有明显问题,就没办法通过准入要求,不接受运维,如果老 板要求必须接,那就只能加人了,或者明确说明在架构调整好之前,不负责 SLA,反推业务改造。 上面介绍的两个告警规则优化 数量少,所以通常来讲,首先去 故障管理里查看当前的故障(incidents)列表,每个故障关联了哪些告警,告警关联了哪些事件,也可以 顺便查看。 如上图,最外层是故障列表(看起来比较多,这是我们的测试环境,正常来说,生产环境的故障不会很 多,否则就说明出大问题了),每个故障关联了多少个告警,有个小警铃的图标可以看到,点击这个故 障,右侧会出现一个抽屉,看到故障详情。关联告警这一栏,可以看到这个故障关联了哪些告警,每个告0 码力 | 23 页 | 1.75 MB | 1 年前3PromQL 从入门到精通
的结果除以时间差,再乘以60,即: (965323899880.0-965304237246.0)/(1661570900.0-1661570850.0)*60= 23595160.8 ? 上例中,我的测试数据是没有缺失数据点的,如果有缺失数据点的情况,数据外推会更为 复杂,具体可以参考这篇文章:https://mp.weixin.qq.com/s/9aiqrtLTnzysV9olMx-rzA 10 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1