历史订单 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

B站统⼀监控系统的设计,演进与实践分享

PAAS托管服务树 container http  server sdk 注册获取target 采集数据吞吐量量响应时间错误率饱和度熔断限流投稿数量量  订单数据在线⼈人数  … ⻩黄⾦金金指标业务指标少量量事件 dashboard 报表告警统⼀一的告警中⼼心解决什什么问题? • 告警源头多 • 告警⻛风暴暴, ⼤大量量重复告警 requests:holt_winters_rate1h offset 7d 告警规则: 预测业务A请求量量异常异常响应 todo • 异常事件关联关系挖掘 • 全联路路模块调⽤用分析 • 瓶颈分析针对历史事件针对当前事件 • 异常检查(动态阈值) • 异常定位(根因分析) • 快速⽌止损针对未来事件 • 故障预测 • 容量量预测 • 趋势预测 Thank You! 哔哩哔哩

0 码力 | 34 页 | 650.25 KB | 1 年前
3
PromQL 从入门到精通

的信息，放到了 metric 名称中了，此时就可以用 __name__ 做一些正则匹配。 Offset 监控系统里，经常会有同环比的需求，比如，当前的值相比一周之前，是否有巨大变化，那怎么才能获取历史数据呢？可以使用 offset 关键字。 offset 后面跟一个时间段，比如 5m、1d、7d、1w，offset 要紧跟查询选择器，比如： sum(http_requests_total{method="GET"} 其延迟数据是11秒，而这里算出13秒，显然与现实不符，不符也没办法，这本来就是个预估值，知道大概数量级就可以了，还是那句话，监控数据是采样数据，这么计算虽然不是那么准确，但是成本低。实际上，我们基于某个指标的历史所有数据计算分位值，意义不大，通常我们是基于最近一段时间的增量数据来计算，比如基于10分钟区间的增量数据计算，就可以较为方便的知道，当前这个10分钟的延迟是多少，上一个10分钟的延迟是多少。histogram_quantile

0 码力 | 16 页 | 2.77 MB | 1 年前
3
告警OnCall事件中心建设方法白皮书

对于一些大故障，跨多个团队，拉齐信息是非常关键的，如果有某个团队发现了一些线索，可以通过评论的方式让其他团队快速知悉，新进的故障处理人员也可以通过这些评论以及故障关联的告警快速得知故障历史信息，快速启动排查工作。下个版本还会继续增强和 IM 的联动，在 FlashDuty 中的一些评论回复，会自动发到 IM 端，进而提升协同效率。另外，我们非常建议大家认真

0 码力 | 23 页 | 1.75 MB | 1 年前
3

共 3 条前往

页

监控系统设计演进实践分享 PromQL Prometheus 告警 OnCall 事件中心建设方法白皮皮书白皮书

分类

语言

格式

B站统⼀监控系统的设计,演进与实践分享

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

分类

语言

格式

B站统⼀监控系统的设计,演进 与实践分享

PromQL 从入门到精通

告警OnCall事件中心建设方法白皮书

B站统⼀监控系统的设计,演进与实践分享