PromQL 从入门到精通
有了解,得先搞清楚时 序数据。 认识时序数据 我们先来看一张图,图上是 5 台机器的内存可用率: 每个机器的内存可用率数据,体现为图上的一条线,我们称为 series,某个机器在某一时刻的内 存可用率数据,我们称为数据点,比如上图,2022-08-25 15:05:22 这个时刻,每个机器都有 一个可用率数据点,共计 5 个数据点。 上面的图是查询的最近一小时的,我们切换到 Table 视图,得到如下结果: 1 2 3 4 5 6 7 8 假设某个 Pod 是接入层的,统计了很多 HTTP 请求相关的指标,我们想统计 5xx 的请求数量, 希望能按 Pod 的 version 画一个饼图。这里有个难点:接入层这个 Pod 没有 version 标签, version 信息只是出现在 kube_pod_labels 中,如何让二者联动呢?上答案: sum( rate(http 函数计算得到的。 histogram_quantile 要了解 histogram_quantile 函数的用法,首先得了解 Histogram 类型的数据。Histogram 翻 译过来是柱状图,设计这个数据类型,是为了描述响应延时的情况。 比如接口:/api/v1/query,如何度量这个接口的健康状况?最核心有两个指标,一个是成功 率,一个是延迟,成功率的计算代价比较小,只需要为每个请求指标打上0 码力 | 16 页 | 2.77 MB | 1 年前3告警OnCall事件中心建设方法白皮书
故障排查、止损效率。 告警/故障处理 通常,我们并不会基于告警来做协同,更多的是基于故障来做协同。点击某个故障,可以看到故障详情, 会有认领、关闭、合并故障、评论等相关操作,示例图如下: 对于一些大故障,跨多个团队,拉齐信息是非常关键的,如果有某个团队发现了一些线索,可以通过评论 的方式让其他团队快速知悉,新进的故障处理人员也可以通过这些评论以及故障关联的告警快速得知故障0 码力 | 23 页 | 1.75 MB | 1 年前3
共 2 条
- 1