告警OnCall事件中心建设方法白皮书
入,系统没有自愈能力。这样的系统,需要配备更多运维人员,而且还很难跟老板讲清楚价值。怎么办? 这就需要制定运维准入规则,哪个系统要交给运维人员来运维,首先要提供一些信息。 ● 相关联系人,出了问题能够及时找到人,联系不上的话得能直接联系研发领导。 ● 服务相关信息,比如代码仓库、系统架构、依赖哪些服务、依赖哪些系统参数、哪些 JVM 参数、常 见问题还有处理办法等等。 然后进行准入评审及准入测 hash(32 + ["__name__=cpu_usage_idle", "host=host1"]) 从 event 到 alert 的这个收敛逻辑,我们叫做一级收敛。只有这个收敛逻辑还不够,告警信息还是比较 散,不能基于这些散乱的告警分别做协同,把多个 alert 收敛成一个 incident(故障),基于 incident 做协同才比较方便。但是,event 到 alert 是有一个固 自然好不到哪儿去。 既然没办法把告警自动收敛成故障,那就手工来做。一个故障关联的关键告警,还是相对容易区分的,只 要把关键告警关联到故障,后续基于这个故障做协同就可以了。所谓协同,一个是信息同步、协同处理, 一个是共同复盘、管理跟进项。 故障协同处理 首先,并不是所有的告警都需要升级成故障协同处理。一般来讲,如果告警可以被值班人员直接处理掉, 对别的团队负责的服务没有0 码力 | 23 页 | 1.75 MB | 1 年前3PromQL 从入门到精通
: {__name__="mem_available_percent", app="clickhouse"} 仍然可以达成相同的效果。有时采集的监控数据格式设计的不好,一些本该用 label 的信息,放 到了 metric 名称中了,此时就可以用 __name__ 做一些正则匹配。 Offset 监控系统里,经常会有同环比的需求,比如,当前的值相比一周之前,是否有巨大变化,那怎么 才能获取历史数据呢?可以使用 的一个常见用法,比如我们使用 kube-state- metrics 来采集 Kubernetes 各个对象的指标数据,其中针对 pod 有个指标是 kube_pod_labels,会把 pod 的一些信息放到这个指标的标签里,指标值是1,相当于一个元信 息,比如: kube_pod_labels{ [...] label_name="frontdoor", label_version="1 是接入层的,统计了很多 HTTP 请求相关的指标,我们想统计 5xx 的请求数量, 希望能按 Pod 的 version 画一个饼图。这里有个难点:接入层这个 Pod 没有 version 标签, version 信息只是出现在 kube_pod_labels 中,如何让二者联动呢?上答案: sum( rate(http_request_count{code=~"^(?:5..)$"}[5m])) by (pod)0 码力 | 16 页 | 2.77 MB | 1 年前3B站统⼀监控系统的设计,演进 与实践分享
时间维度 业务维度 关联关系 rms 告警升级 企业微信 钉钉 邮件 短信 ACK应答 屏蔽 告警等级 对应处理理⽅方式 监控系统 其他系统 告警中⼼心 告警源 meta信息 获取业务信息 获取关联关系 告警统计 有意思的尝试 科学的告警策略略 科学? machine learning? deep learning? 不不要盲⽬目的使⽤用机器器学习 先让告警有意义0 码力 | 34 页 | 650.25 KB | 1 年前3OpenMetrics - Standing on the shoulders of Titans
single data point in a time series can point to one single event Especially useful if you emit one trace id per histogram bucket, i.e. exemplars Some integrations already support this concept, e.g. OpenCensus0 码力 | 21 页 | 84.83 KB | 1 年前3Prometheus Deep Dive - Monitoring. At scale.
single data point in a time series can point to one single event Especially useful if you emit one trace id per histogram bucket Some integrations already support this concept, e.g. OpenCensus Ingestors0 码力 | 34 页 | 370.20 KB | 1 年前3
共 5 条
- 1