告警OnCall事件中心建设方法白皮书
前言 市面上有众多监控系统,刨去商业软件不说,开源的就有 Nagios、Zabbix、Open-Falcon、 Nightingale、Grafana、Prometheus、Elastalert 等等,还有云厂商提供的监控系统,比如华为云的云 监控、腾讯云的云监控、阿里云的云监控,甚至有些云厂商会提供多个割裂的监控系统,比如阿里云不但 有云监控,还有 ARMS,还有 SLS。 大部分公司都不会只使用一套监控系统,网络设备的监控可能采用的 Zabbix,Kubernetes 的监控可能 用的 Prometheus(Kubernetes 可能有多套,以至于 Prometheus 可能有多套)或者 Nightingale, 日志的监控可能用的 Elastalert,如果上云了,可能还会有多套不同的云监控(尤其是多云场景下)。 监控系统的重心,通常是采集、存储、可视化、生成告警事件,但通常都不具有完备的事件后续处理能 力。这里说的后续处理主要包括:多渠道分级通知、告警静默、抑制、收敛聚合、降噪、排班、认领升 级、协同闭环处理等等。监控系统或多或少都有一些这方面的能力,但是通常都不完备,而这,正是 PagerDuty FlashDuty 这种产品存在的价值。这些产品都是以 Duty 命名,核心就是支持告警 OnCall 值班处理的场景。 对于告警事件的后续处理,有哪些问题和需求以及何为最佳实践?我们从思路方法和工具实践两个方面分0 码力 | 23 页 | 1.75 MB | 1 年前3OpenShift Container Platform 4.10 监控
Container Platform 4.10 监控 在 OpenShift Container Platform 中配置和使用监控堆栈 Last Updated: 2023-10-17 OpenShift Container Platform 4.10 监控 在 OpenShift Container Platform 中配置和使用监控堆栈 法律通告 法律通告 Copyright © property of their respective owners. 摘要 摘要 本文提供有关在 OpenShift Container Platform 中配置和使用 Prometheus 监控堆栈的说明。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 章 监 监控概述 控概述 1.1. 关于 OPENSHIFT CONTAINER PLATFORM 监控 1.2. 了解监控堆栈 1.3. OPENSHIFT CONTAINER PLATFORM 监控的常见术语表 1.4. 其他资源 1.5. 后续步骤 第 第 2 章 章 配置 配置监 监控堆 控堆栈 栈 2.1. 先决条件 2.2. 对监控的维护和支持 2.3. 准备配置监控堆栈 20 码力 | 135 页 | 1.58 MB | 1 年前3主从监控项经验分享
演讲主题 演讲嘉宾 主从监控项经验分享 伍昕 宏时数据 01 主从监控项简介 主从监控项 Dependent Items show global variables; 场景: Zabbix的一次数据采集可能获取多个值,(比如与第三方系统对接,获取数 据库所有状态) Zabbix的一个使用场景 主从监控项 Dependent Items http://exporter_ip:9100/metrics 主从监控项 Dependent Items Zabbix的一个使用场景 主从监控项 将Zabbix的一次数据采集获取到的多个值,分别赋值给各个从属监控项 (相关项目)监控项 DEPENDENT ITEM 数据预处理 PREPROCESSING 第一步: 第二步: 2步操作 2个Zabbix的功能 主监控项准备 Dependent Items 创建一个自定义监控项: 修改 sh restart 主从监控项 Dependent Items 第一步:配置一个(相关项目)监控项 Item PropertiesàType àDepdent itemàMaster item àDone 创建监控项 à监控项类型à依赖监控项 à选择“主监控项” à 配置结束 主从监控项 Dependent Items 第一步:配置一个依赖监控项 Item PropertiesàType0 码力 | 26 页 | 3.92 MB | 1 年前3OpenShift Container Platform 4.14 电源监控
OpenShift Container Platform 4.14 电源监控 为 Red Hat OpenShift 配置和使用电源监控 Last Updated: 2024-02-23 OpenShift Container Platform 4.14 电源监控 为 Red Hat OpenShift 配置和使用电源监控 法律通告 法律通告 Copyright © 2024 Red Hat OpenStack community. All other trademarks are the property of their respective owners. 摘要 摘要 您可以使用电源监控来监控 OpenShift Container Platform 集群中运行的每个容器的功耗,如 CPU 和 DRAM。 . . . . . . . . . . . . . . . . . . . . 发行注 行注记 记 1.1. 电源监控 0.1 (技术预览) 第 第 2 章 章 电 电源 源监 监控概述 控概述 2.1. 关于电源监控 2.2. 电源监控架构 2.3. KEPLER 硬件和虚拟化支持 2.4. 其他资源 第 第 3 章 章 为 为 RED HAT OPENSHIFT 安装 安装电 电源 源监 监控 控 3.1. 安装 POWER 监控 OPERATOR 3.2. 部署0 码力 | 20 页 | 350.27 KB | 1 年前3监控Apache Flink应用程序(入门)
监控Apache Flink应用程序(入门) caolei Exported on 01/10/2020 caolei – 监控Apache Flink应用程序(入门) – 2 Table of Contents 1 Flink指标体系 ...................................................................... ............................................................................................. 6 3 监控 .................................................................................................. ....................................................................................... 9 4 进度和吞吐量监控 ......................................................................................... 10 4.1 吞吐量0 码力 | 23 页 | 148.62 KB | 1 年前3使⽤Apache SkyWalking APM 监控 Apache ServiceComb
使⽤Apache SkyWalking APM 监控 Apache ServiceComb 吴晟 Sheng Wu Huawei DevCloud http://skywalking.io Twitter @AsfSkyWalking 个⼈介绍 GitHub: https://github.com/wu-sheng Personal Homepage: https://wu-sheng0 码力 | 22 页 | 2.85 MB | 1 年前3基于open-falcon的平安云监控
基于open-falcon的 平安云监控 目录 Ø 团队介绍 Ø 背景 Ø 系统定位 Ø argus是什么 Ø 为什么选用Go Ø argus的前身 Ø argus的现状 Ø argus的未来 团队介绍 Ø 平安云IAAS团队 Ø 负责平安集团IAAS平台建设 Ø 为平安集团内部其他子公司服务 Ø 打造对外的金融云服务 目录 Ø 团队介绍 Ø 背景 Ø 系统定位 背景 Ø 应对云主机快速增长 Ø 打造用户自助服务的监控平台 Ø 适应内部的三级网络架构 背景 云管区 公共服务区 可用区 目录 Ø 团队介绍 Ø 背景 Ø 系统定位 Ø argus是什么 Ø 为什么选用Go Ø argus的前身 Ø argus的现状 Ø argus的未来 系统定位 Ø 保证基础监控,提供监控通道 Ø 要求高可用、高可扩展 Ø 分离用户、平台管理员 建设用户自助平台(看性能、配告警、收告警) Ø 保证告警覆盖率,按类型初始化通用告警策略 Ø 兼顾通用的和个性的监控要求 目录 Ø 团队介绍 Ø 背景 Ø 系统定位 Ø argus是什么 Ø 为什么选用Go Ø argus的前身 Ø argus的现状 Ø argus的未来 argus是什么 Ø 是平安云监控系统 Ø 希腊神话里的百眼巨人 Ø 基平open-falcon开发的平安云监控系统0 码力 | 30 页 | 10.40 MB | 1 年前3Zabbix高级应用 -- K8S 集群监控
Zabbix高级应用 --K8s集群监控 ����� ��������FiberHome 演讲主题: • CactiFans • Zabbix • Microservice • K8s • Golang https://blog.cactifans.com/ 无边界监控 应用架构发展趋势 数据采集 RESTful 接口 LLD – 低级别发现 低级发现提供了一种监控主机上变化实体,并 自动创建监控指标,触发器和图形的方法。 l 磁盘 l 网卡 l 端口 l ....... 例如 预处理 对采集器采集的原始数据通过管道进行处理,最终达到 数据展现和存储的要求。 例如 SNMP采集交换机内存 15MB string? 图形?触发器? Kubernetes 架构 k8s node k8s pod k8s master 应用 Zabbix Agent HTTP HTTP Agent CPU/内存/磁盘/网络 服务/日志/... 状态/CPU/内存 Kubernetes 监控 Kubernetes Metrics Server 安装 https://github.com/kubernetes-sigs/metrics-server # Kubernetes 1.7 $ kubectl create -f deploy/1.7/ # Kubernetes0 码力 | 25 页 | 11.98 MB | 1 年前3在Kubernetes上部署高可用的Service Mesh监控
在 k8s 上部署高可用的 service mesh 监控 pctang@caicloud.io 唐鹏程 才云科技TOC Solving issues in a new way Monitoring your service mesh Old-school monitoringPrometheus + Kubernetes ● A time series based monitoring0 码力 | 35 页 | 2.98 MB | 5 月前336-云原生监控体系建设-秦晓辉
云原生监控体系建设 秦晓辉 快猫星云 联合创始人 个人介绍 秦晓辉,常用网名龙渊秦五、UlricQin,山东人,12年 毕业自山东大学,10年经验一直是在运维研发相关方向, 是Open-Falcon、Nightingale、Categraf 等开源软件 的核心研发,快猫星云联合创始人,当前在创业,为客 户提供稳定性保障相关的产品 个人主页:https://ulricqin.github.io/ io/ 大纲 • 云原生之后监控需求的变化 • 从Kubernetes架构来看要监控的组件 • Kubernetes所在宿主的监控 • Kubernetes Node组件监控 • Kubernetes控制面组件监控 • Kubernetes资源对象的监控 • Pod内的业务应用的监控 • 业务应用依赖的中间件的监控 云原生之后监控需求的 变化 云原生之后监控需求的变化 •相比物理机虚拟机时 •原来使用资产视角管理监控对象的系统不再适用 •要么使用注册中心来自动发现,要么就是采集器和被监控对象通过sidecar模式捆绑一体 指标生命周期变短 •微服务的流行,要监控的服务数量大幅增长,是之前的指标数量十倍都不止 •广大研发工程师也更加重视可观测能力的建设,更愿意埋点 •各种采集器层出不穷,都是本着可采尽采的原则,一个中间件实例动辄采集几千个指标 指标数量大幅增长 •老一代监控系统更多的是关注机0 码力 | 32 页 | 3.27 MB | 5 月前3
共 629 条
- 1
- 2
- 3
- 4
- 5
- 6
- 63