B站统⼀监控系统的设计,演进 与实践分享
规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule push rule 获取监控数据 获取监控数据 推送告警 降低使⽤用成本 agent prometheus target target target alert_manager 告警平 服务 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule push rule 获取监控数据 获取监控数据 推送告警 1. 降低编写规则的成本 降低使⽤用成本 agent prometheus target target target alert_manager 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取 监控⽬目标 告警规则 web push rule push rule 获取监控数据 获取监控数据 推送告警 1. 降低编写规则的成本 2. 降低多idc维护成本 规则管理理⻚页⾯面 例例⼦子 - 业务监控 稿件 账号 Feed PAAS托管0 码力 | 34 页 | 650.25 KB | 1 年前3PromQL 从入门到精通
上例中返回了3条结果,告警引擎就会认为有异常产生,生成3个告警事件。 当然,有的时候,偶尔一次触发了阈值我们认为不算啥事,希望连续触发多次才告警,此时就要 使用 prometheus alerting rule 的 for 关键字,或者夜莺中的持续时长的配置,表示在一个时 间范围内多次执行,每次都触发了才告警。 像上例触发了3个告警事件,如果后面继续周期性使用promql查询查不到数据了,就说明最新0 码力 | 16 页 | 2.77 MB | 1 年前3
共 2 条
- 1