硬盘启动 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PromQL 从入门到精通

load、正在运行的进程数量等等，都使用 Gauge 类型来表示。这种类型的值，我们非常关注当前值。 Counter 类型 Counter 类型是单调递增的值，比如机器上某块网卡收到的数据包的总量，是从操作系统启动之后，就持续递增的，对于这种类型的值，我们通常关注的不是当前值是多少，而是关注增量和变化率。我们在机器上执行 ifconfig 命令： eth0: flags=4163启动以来收到的总的包量，TX packets 后面的值是 OS 启动以来发出去的总的包量，都是很大的值，我们通常不太关注这个值当前是多少，更关注的是最近 1 分钟收到/发出多少包，或者每秒收到/发出多少包。 1 2 3 但是，监控数据是周期性上报的，比如每 10 秒上报一次，在 2022-08-25 15:48:03 这个时刻，未必恰好有监控数据啊，那这个 Table 中的数据是哪里来的？实际上，Prometheus 有个启动参数，--query.lookback-delta=2m 来控制这个行为，如果配置为 2m，就表示，Prometheus 会查询 2022-08-25 15:46:03 ~ 2022-08-25

0 码力 | 16 页 | 2.77 MB | 1 年前
3
告警OnCall事件中心建设方法白皮书

不同的通知媒介，比如飞书、钉钉、企微、电话、短信、邮箱等。通知了之后，相关的人可能没注意到，可以配置重复通知，比如 10 分钟之后再次通知。如果多次通知，接收人一直没有响应，就要启动升级策略了，比如 30 分钟后，告警仍然没有恢复而且没有被人工处理，则升级到下一个通知环节（通知环节可以有多个）。通知的触发，最为推荐的是值班表（OnCall 排班是践行 SRE 的有效手段），其次是团队（团队可以降低人对于一些大故障，跨多个团队，拉齐信息是非常关键的，如果有某个团队发现了一些线索，可以通过评论的方式让其他团队快速知悉，新进的故障处理人员也可以通过这些评论以及故障关联的告警快速得知故障历史信息，快速启动排查工作。下个版本还会继续增强和 IM 的联动，在 FlashDuty 中的一些评论回复，会自动发到 IM 端，进而提升协同效率。另外，我们非常建议大家认真处理每一个故障

0 码力 | 23 页 | 1.75 MB | 1 年前
3

共 2 条前往

页

PromQL Prometheus 告警 OnCall 事件中心建设方法白皮皮书白皮书

分类

语言

格式

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书