PromQL 从入门到精通
load、正在运行的进程数量等等,都使用 Gauge 类 型来表示。这种类型的值,我们非常关注当前值。 Counter 类型 Counter 类型是单调递增的值,比如机器上某块网卡收到的数据包的总量,是从操作系统启动 之后,就持续递增的,对于这种类型的值,我们通常关注的不是当前值是多少,而是关注增量和 变化率。我们在机器上执行 ifconfig 命令: eth0: flags=4163持续时长的配置,表示在一个时 间范围内多次执行,每次都触发了才告警。 像上例触发了3个告警事件,如果后面继续周期性使用promql查询查不到数据了,就说明最新 的mem_available_percent数据不再小于60,即告警恢复。 的结果除以时间差,再乘以60,即: (965323899880.0-965304237246.0)/(1661570900.0-1661570850.0)*60= 23595160.8 ? 上例中,我的测试数据是没有缺失数据点的,如果有缺失数据点的情况,数据外推会更为 复杂,具体可以参考这篇文章:https://mp.weixin.qq.com/s/9aiqrtLTnzysV9olMx-rzA 1 0 码力 | 16 页 | 2.77 MB | 1 年前3告警OnCall事件中心建设方法白皮书
相关联系人,出了问题能够及时找到人,联系不上的话得能直接联系研发领导。 ● 服务相关信息,比如代码仓库、系统架构、依赖哪些服务、依赖哪些系统参数、哪些 JVM 参数、常 见问题还有处理办法等等。 然后进行准入评审及准入测试,如果系统架构有明显问题,就没办法通过准入要求,不接受运维,如果老 板要求必须接,那就只能加人了,或者明确说明在架构调整好之前,不负责 SLA,反推业务改造。 上面介绍的两个告警规则优化 数量少,所以通常来讲,首先去 故障管理里查看当前的故障(incidents)列表,每个故障关联了哪些告警,告警关联了哪些事件,也可以 顺便查看。 如上图,最外层是故障列表(看起来比较多,这是我们的测试环境,正常来说,生产环境的故障不会很 多,否则就说明出大问题了),每个故障关联了多少个告警,有个小警铃的图标可以看到,点击这个故 障,右侧会出现一个抽屉,看到故障详情。关联告警这一栏,可以看到这个故障关联了哪些告警,每个告0 码力 | 23 页 | 1.75 MB | 1 年前3
共 2 条
- 1