PromQL 从入门到精通
看一下具体的意思,乘号前面的部分,是一个典型的统计每秒 5xx 数量的语法,group by pod。 然后我们乘以 kube_pod_labels,这个值是1,所以对整体数值没有影响,而 kube_pod_labels 有多个标签,而且和sum语句的结果vector的标签不一致,所以通过 on(pod) 的语法指定只是按照pod标签来做对应关系。 最后,利用 group_left(label_version)0 码力 | 16 页 | 2.77 MB | 1 年前3告警OnCall事件中心建设方法白皮书
都没有。这类告警多了人就疲 了,当重要的告警来临的时候,也容易忽略。这样的规则如果不经过治理,日积月累,就会产生很多无用 的告警。 第二个常见的原因是底层出问题导致所有的上层依赖都告警,越是底层影响越大,比如基础网络如果出问 题,发出几万条告警都是正常的。 第三个原因是渠道错配。一些不重要的告警也使用打扰性很高的渠道发出,用户可能会觉得单一渠道不可 靠,想用多个渠道同时发送的方式来保障告警触达率,这也属于告警规则配置不合理的范畴。 这个值姑且称为事件 Hash,相同 Hash 的事件就被聚合为一条告警。更复杂的是告警到故障的合并,当 前我们支持基于规则的聚合,后面会基于算法聚合: 比如基于告警规则标题做聚合,某一时刻,基础网络故障,有 1000 台机器同时报了失联告警,就可以很 方便地合并成一个故障,只通知这一个故障即可,大幅降噪减少通知打扰。 故障抖动 有的时候会出现一会告警一会恢复一会又告警一会又0 码力 | 23 页 | 1.75 MB | 1 年前3B站统⼀监控系统的设计,演进 与实践分享
统⼀一的告警中⼼心 完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 • http • tcp • ping 基础层 应⽤用层 • cache资源 • db资源 • mq资源 • lb资源 • es资源 • 分布式⽂文件 • 进程监控 业务层 • qps/tps • 耗时分布0 码力 | 34 页 | 650.25 KB | 1 年前3
共 3 条
- 1