规则 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

告警OnCall事件中心建设方法白皮书

后针对原因提出对应的方案。告警太多的常见原因最常见的原因，是告警规则设置得不合理。比如很多规则触发了告警之后，实际没有后续动作，只是起到常态化通知的效果，不需要排查，也不需要止损，甚至连个长线的 TODO 都没有。这类告警多了人就疲了，当重要的告警来临的时候，也容易忽略。这样的规则如果不经过治理，日积月累，就会产生很多无用的告警。第二个常见的原因是底层靠，想用多个渠道同时发送的方式来保障告警触达率，这也属于告警规则配置不合理的范畴。第四个原因是预期内的维护动作导致的。比如程序升级变更，如果进程重启时间过长，可能会导致关联的服务告警，或者某个机器重启，忘记提前屏蔽了，也会产生一堆关联告警。了解了常见原因，下面我们来看一下有哪些常见解法。优化告警规则类似 PagerDuty FlashDuty 这种产品则的源头做好优化，自然是事半功倍。很多公司的告警规则配置没有原则可循，每次故障复盘先看告警是否漏报，一线工程师为了不背锅，自然是尽量多地提高告警覆盖面，但这么做的后果，就是告警过多，无效告警占多数，长此以往，工程师疲惫不堪。那么告警规则的配置应该遵照一个什么原则呢？虽然每个公司业务不同，总有一些通用的原则可循吧？的确如此，这里我分享一下我个人的做法，希望对你有所启发。每个规则都应该对应具体的 Runbook

0 码力 | 23 页 | 1.75 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

alert_manager 告警平服务 cache db平台 rms资外围系统监控⽬目规则⽣生告警规 api 规则管理理获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取  监控⽬目标  告警规则 web push rule push rule 获取监控数据获取监控数据推送告警降低使⽤用成本 db平台 rms资外围系统监控⽬目规则⽣生告警规 api 规则管理理获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取  监控⽬目标  告警规则 web push rule push rule 获取监控数据获取监控数据推送告警 1. 降低编写规则的成本降低使⽤用成本 agent prometheus 外围系统监控⽬目规则⽣生告警规 api 规则管理理获取监控⽬目标 IDC_1 agent prometheus target target target IDC_2 获取  监控⽬目标  告警规则 web push rule push rule 获取监控数据获取监控数据推送告警 1. 降低编写规则的成本 2. 降低多idc维护成本规则管理理⻚页⾯面例例⼦子

0 码力 | 34 页 | 650.25 KB | 1 年前
3
PromQL 从入门到精通

ouse"} 的结果：如果我们认为内存可用率小于60就是有问题的，想找出所有有问题的数据，只要在 promql 中拼上 < 60 即可： 1 如上的方法，其实就是告警引擎的核心逻辑。告警规则里会要求用户配置promql以及执行频率，告警引擎就会根据执行频率周期性执行，每次执行的时候就是拿着promql去查询，promql 中带有阈值，即上例中的 <60，所以如果所有机器的内存可用率都很高，比如维持在80~90，太大，比如16T一块盘，使用率70%还有非常大的余量，所以这里我们使用and附加一个条件，限制一下disk_total，即磁盘总大小，磁盘总大小小于500GB，才适用磁盘利用率大于70%这个规则。 or vector1 or vector2，其结果是一个向量，包含vector1的所有原始元素（标签集+值）以及 vector2中所有在vector1中没有匹配标签集的元素。举一个例子，就要配置100条告警规则，每个规则里的promql都要把机器标识信息写上。 ? 对于拉模式的监控系统，比如 Prometheus，很容易判断机器失联，因为 pull 不到数据了，就知道 target 挂了，通过 up 指标就可以告警；对于推模式的监控系统，比如 Open- Falcon、Datadog、Nightingale，就不好搞了。所以夜莺的告警规则里专门做了一个机器告警类型，用于机器失联告警。

0 码力 | 16 页 | 2.77 MB | 1 年前
3
1.6 利用夜莺扩展能力打造全方位监控系统

夜莺Server数据处理 05. data - write 夜莺Server数据处理 06. data - read 夜莺Server数据处理夜莺设计实现技术难点及细节第六部分 0１. 规则集中化管理及自动发现夜莺技术难点及细节 0２. 采集器夜莺技术难点及细节 0２. 数据序列化及传输问题夜莺技术难点及细节 Thank you

0 码力 | 40 页 | 3.85 MB | 1 年前
3

共 4 条前往

页

告警 OnCall 事件中心建设方法白皮皮书白皮书监控系统设计演进实践分享 PromQL Prometheus 1.6 利用夜莺扩展能力打造方位全方位

分类

语言

格式

告警OnCall事件中心建设方法白皮书

B站统⼀监控系统的设计,演进与实践分享

PromQL 从入门到精通

1.6 利用夜莺扩展能力打造全方位监控系统

分类

语言

格式

告警OnCall事件中心建设方法白皮书

B站统⼀监控系统的设计,演进 与实践分享

PromQL 从入门到精通

1.6 利用夜莺扩展能力打造全方位监控系统

B站统⼀监控系统的设计,演进与实践分享