网络应用 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

1.6 利用夜莺扩展能力打造全方位监控系统

快『止损』来实现。监控痛点：全面完备、跨云第二部分端上、链路、资源、组件、应用多维度跨云监控，不管哪个环节出问题都能及时感知产品要求 01.端上、链路、资源、组件、应用多维度跨云监控端上卡顿崩溃链路连通性链路质量服务端硬件资源组件服务业务应用夜莺介绍：国产开源监控系统第三部分国产开源监控产品相对比较匮乏，夜莺希望重新定义国产开进程存活端口监控插件脚本日志监控网络设备中间件类数据库类 • 支持在web上配置采集策略，不同的采集可以指定不同的探针机器、目标机器，便于管理和知识传承 • 独创在端上流式读取日志，根据正则提取指标的机制，轻量易用，无业务侵入性 • 内置集成了多种数据库中间件的采集以及网络设备的采集，复用telegraf和datadog-agent的能力 nt的能力 • 支持statsd的udp协议，用于业务应用的apm监控分析夜莺数据采集 01.监控数据采集，all in one的agentd 夜莺数据采集 02. Autoconfig Forwarder 夜莺数据采集 02. Autoconfig Forwarder 夜莺数据采集 02. Autoconfig Checks Statsd Aggregator Serializer

0 码力 | 40 页 | 3.85 MB | 1 年前
3
告警OnCall事件中心建设方法白皮书

等等，还有云厂商提供的监控系统，比如华为云的云监控、腾讯云的云监控、阿里云的云监控，甚至有些云厂商会提供多个割裂的监控系统，比如阿里云不但有云监控，还有 ARMS，还有 SLS。大部分公司都不会只使用一套监控系统，网络设备的监控可能采用的 Zabbix，Kubernetes 的监控可能用的 Prometheus（Kubernetes 可能有多套，以至于 Prometheus 可能有多套）或者 Nightingale，了，当重要的告警来临的时候，也容易忽略。这样的规则如果不经过治理，日积月累，就会产生很多无用的告警。第二个常见的原因是底层出问题导致所有的上层依赖都告警，越是底层影响越大，比如基础网络如果出问题，发出几万条告警都是正常的。第三个原因是渠道错配。一些不重要的告警也使用打扰性很高的渠道发出，用户可能会觉得单一渠道不可靠，想用多个渠道同时发送的方式来保障告警触达率，这也属于告警规则配置不合理的范畴。这个值姑且称为事件 Hash，相同 Hash 的事件就被聚合为一条告警。更复杂的是告警到故障的合并，当前我们支持基于规则的聚合，后面会基于算法聚合：比如基于告警规则标题做聚合，某一时刻，基础网络故障，有 1000 台机器同时报了失联告警，就可以很方便地合并成一个故障，只通知这一个故障即可，大幅降噪减少通知打扰。故障抖动有的时候会出现一会告警一会恢复一会又告警一会又恢复

0 码力 | 23 页 | 1.75 MB | 1 年前
3
PromQL 从入门到精通

从了。 Prometheus 文档中有一个章节专门介绍函数，各个函数的介绍中，都会写明是用于 instant- vector，还是用于 range-vector，如果不理解查询类型，就无法很好的应用这些函数。查询选择器 PromQL大括号里的部分是 selector，查询选择器，用于从一大堆监控数据中，过滤出真正关心的数据，在 Prometheus 生态里，时序数据的标识，就是一堆标签集合，所以这里的过滤，就 (multiplication)  / (division)  % (modulo)  ^ (power/exponentiation) 1 1 举一个例子来演示真实环境下的算术运算符的应用，比如之前的例子，对于内存可用率的指标 mem_available_percent 这个指标是采集器直接计算好的，如果采集器没有计算，而是上报了原始指标 mem_available 和 mem_total，我们仍然可以使用分位的值，但是这个值不是通过promql在服务端计算的，而是在应用的内存里，在SDK层面计算的，即客户端把这个分位值算好，再上报给服务端，服务端就无需通过histogram_quantile 这么重的函数做计算了，而是直接查看就好。但是，既然是在客户端SDK层面计算，就会产生局限，这些分位值只能是实例级别（或者说进程级别，因为SDK是在应用进程里运行的）的分位值，这个是否个问题？笔者看来，

0 码力 | 16 页 | 2.77 MB | 1 年前
3
B站统⼀监控系统的设计,演进与实践分享

调⽤用链 • SLA • ⽇日志播放质量量 • 点播/直播 • 播放卡顿 • 平均⾸首帧 • 播放失败率 • 弹幕加载 • cdn质量量客户端质量量 • ⽤用户端⽹网络质量量 • 劫持情况 • 崩溃&卡顿 • 返回码 • 响应时间 • 错误率服务端监控⽤用户端监控如何推进？服务端监控场景分析监控场景对应监控⼿手段类型

0 码力 | 34 页 | 650.25 KB | 1 年前
3

共 4 条前往

页

1.6 利用夜莺扩展能力打造方位全方位监控系统告警 OnCall 事件中心建设方法白皮皮书白皮书 PromQL Prometheus 设计演进实践分享

分类

语言

格式

1.6 利用夜莺扩展能力打造全方位监控系统

告警OnCall事件中心建设方法白皮书

PromQL 从入门到精通

B站统⼀监控系统的设计,演进与实践分享

分类

语言

格式

1.6 利用夜莺扩展能力打造全方位监控系统

告警OnCall事件中心建设方法白皮书

PromQL 从入门到精通

B站统⼀监控系统的设计,演进 与实践分享

B站统⼀监控系统的设计,演进与实践分享