B站统⼀监控系统的设计,演进 与实践分享
PAAS托管 服务树 container http server sdk 注册 获取target 采集数据 吞吐量量 响应时间 错误率 饱和度 熔断 限流 投稿数量量 订单数据 在线⼈人数 … ⻩黄⾦金金指标 业务指标 少量量事件 dashboard 报表 告警 统⼀一的告警中⼼心 解决什什么问题? • 告警源头多 • 告警⻛风暴暴, ⼤大量量重复告警 requests:holt_winters_rate1h offset 7d 告警规则: 预测业务A请求量量异常 异常响应 todo • 异常事件关联关系挖掘 • 全联路路模块调⽤用分析 • 瓶颈分析 针对历史事件 针对当前事件 • 异常检查(动态阈值) • 异常定位(根因分析) • 快速⽌止损 针对未来事件 • 故障预测 • 容量量预测 • 趋势预测 Thank You! 哔哩哔哩0 码力 | 34 页 | 650.25 KB | 1 年前3PromQL 从入门到精通
的信息,放 到了 metric 名称中了,此时就可以用 __name__ 做一些正则匹配。 Offset 监控系统里,经常会有同环比的需求,比如,当前的值相比一周之前,是否有巨大变化,那怎么 才能获取历史数据呢?可以使用 offset 关键字。 offset 后面跟一个时间段,比如 5m、1d、7d、1w,offset 要紧跟查询选择器,比如: sum(http_requests_total{method="GET"} 其延迟数据是11秒,而这里算出13秒,显然与现实不符,不符也没办法,这本来就是个预估 值,知道大概数量级就可以了,还是那句话,监控数据是采样数据,这么计算虽然不是那么准 确,但是成本低。 实际上,我们基于某个指标的历史所有数据计算分位值,意义不大,通常我们是基于最近一段时 间的增量数据来计算,比如基于10分钟区间的增量数据计算,就可以较为方便的知道,当前这 个10分钟的延迟是多少,上一个10分钟的延迟是多少。histogram_quantile0 码力 | 16 页 | 2.77 MB | 1 年前3告警OnCall事件中心建设方法白皮书
对于一些大故障,跨多个团队,拉齐信息是非常关键的,如果有某个团队发现了一些线索,可以通过评论 的方式让其他团队快速知悉,新进的故障处理人员也可以通过这些评论以及故障关联的告警快速得知故障 历史信息,快速启动排查工作。 下个版本还会继续增强和 IM 的联动,在 FlashDuty 中的一些评论回复,会自动发到 IM 端,进而提升 协同效率。 另外,我们非常建议大家认真0 码力 | 23 页 | 1.75 MB | 1 年前3
共 3 条
- 1