告警OnCall事件中心建设方法白皮书
的是一个问题,只是时间戳不同,这样的两个 event,就可以收敛为一个 alert。 从实现上来说,告警策略(也称告警规则)+ 指标标签集的哈希值,可以作为 alert 的唯一标识。比如 刚才的例子,告警策略的 ID 假设为 32,标签集是:[“name=cpu_usage_idle”, “host=host1”], 这两个时间戳产生的告警事件,哈希值都是一样的。 计算方法是: 敛成一个 故障,下一分钟所有告警收敛成另一个故障。显然,一个故障内的多个告警相互之间可能没有关联关系, 所以这种收敛方法不是太好。 2、根据时间 + 标签做收敛 除了时间维度,再加上某个标签作为收敛维度,比如机器标签,某个时间段内所有 A 机器的告警收敛成 一个故障,所有 B 机器的告警收敛成另一个故障。或者按照服务维度,某个时间段内所有 A 服务的告警 收敛成一个故障,所有 效得多。 如上,是从思路方法层面,对事件的处理做了逻辑讲解。要求所有的监控系统实现这些能力不太现实,而 且会造成一个一个的事件孤岛,所以典型的做法是把所有监控系统生成的事件统一聚合到一个平台来处 理,这就是 OnCall 中心,下面我们以 FlashDuty 来举例,讲解 OnCall 中心的工具实践。 工具实践篇 称手好用的工具是可以大幅提升效率的,同时,好的工具可以沉淀最佳实践,沉淀经验,假设由你来设计0 码力 | 23 页 | 1.75 MB | 1 年前3PromQL 从入门到精通
生态里,时序数据的标识,就是一堆标签集合,所以这里的过滤,就 是针对标签做过滤,支持四类操作符: =:完全匹配,比如 app="clickhouse" !=:完全不匹配,比如 app!="clickhouse" =~:正则匹配,比如 app=~"n9e-.*" !~:正则不匹配,比如 app!~"n9e-.*" 指标名称,通常放到大括号之外,但实际上,指标名称也是一个标签,其标签Key是 mem_total 的5条记录中找标签相同的记录,进 行除法运算。除法运算得到5条结果(0~1之间的数字),然后跟100相乘(得到百分比大 小),100这个数字称为标量,5条结果和标量计算,会把每一条结果分别乘以100,得到最终 的结果,这个最终结果其实就是 mem_available_percent。 如果分子和分母对应的selector查到的数据标签不同,就没法做除法运算了,比如 net_bytes_recv net_bytes_recv 比内存相关的指标多了一个interface的标签(标明网卡),二者是没法做运算 的,结果为空: net_bytes_recv{app="clickhouse"}/mem_total{app="clickhouse"} 比较运算符 == (equal) != (not-equal) > (greater-than) < (less-than)0 码力 | 16 页 | 2.77 MB | 1 年前3B站统⼀监控系统的设计,演进 与实践分享
filter数据 精度降低 建议 降低使⽤用成本 agent prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取监控数据 获取监控数据 推送告警 降低使⽤用成本 agent prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 推送告警 1. 降低编写规则的成本 降低使⽤用成本 agent prometheus target target target alert_manager 告警平 服务 cache db平台 rms资 外围系统 监控⽬目 规则⽣生 告警规 api 规则管理理 获取监控⽬目标 IDC_1 agent prometheus target target target IDC_20 码力 | 34 页 | 650.25 KB | 1 年前31.6 利用夜莺扩展能力打造全方位监控系统
夜莺介绍:国产开源监控系统 第三部分 国产开源监控产品相对比较匮乏,夜莺希望重新定义国产开 源监控,支持云原生监控,经受了滴滴大规模生产检验 Nightingale 夜莺是新一代国产智能监控平台,既可以解决传统物理机虚拟机的场景,也可以解 决容器的场景。衍生自Open-Falcon和滴滴Odin监控,经受了包括小米、美团、滴滴 在内的数百家企业的生产环境验证,简单可依赖,好用到爆! 3500+0 码力 | 40 页 | 3.85 MB | 1 年前3
共 4 条
- 1