主从监控项经验分享
演讲主题 演讲嘉宾 主从监控项经验分享 伍昕 宏时数据 01 主从监控项简介 主从监控项 Dependent Items show global variables; 场景: Zabbix的一次数据采集可能获取多个值,(比如与第三方系统对接,获取数 据库所有状态) Zabbix的一个使用场景 主从监控项 Dependent Items http://exporter_ip:9100/metrics 主从监控项 Dependent Items Zabbix的一个使用场景 主从监控项 将Zabbix的一次数据采集获取到的多个值,分别赋值给各个从属监控项 (相关项目)监控项 DEPENDENT ITEM 数据预处理 PREPROCESSING 第一步: 第二步: 2步操作 2个Zabbix的功能 主监控项准备 Dependent Items 创建一个自定义监控项: 修改 sh restart 主从监控项 Dependent Items 第一步:配置一个(相关项目)监控项 Item PropertiesàType àDepdent itemàMaster item àDone 创建监控项 à监控项类型à依赖监控项 à选择“主监控项” à 配置结束 主从监控项 Dependent Items 第一步:配置一个依赖监控项 Item PropertiesàType0 码力 | 26 页 | 3.92 MB | 1 年前3Zabbix高级应用 -- K8S 集群监控
Zabbix高级应用 --K8s集群监控 ����� ��������FiberHome 演讲主题: • CactiFans • Zabbix • Microservice • K8s • Golang https://blog.cactifans.com/ 无边界监控 应用架构发展趋势 数据采集 RESTful 接口 LLD – 低级别发现 低级发现提供了一种监控主机上变化实体,并 自动创建监控指标,触发器和图形的方法。 l 磁盘 l 网卡 l 端口 l ....... 例如 预处理 对采集器采集的原始数据通过管道进行处理,最终达到 数据展现和存储的要求。 例如 SNMP采集交换机内存 15MB string? 图形?触发器? Kubernetes 架构 k8s node k8s pod k8s master 应用 Zabbix Agent HTTP HTTP Agent CPU/内存/磁盘/网络 服务/日志/... 状态/CPU/内存 Kubernetes 监控 Kubernetes Metrics Server 安装 https://github.com/kubernetes-sigs/metrics-server # Kubernetes 1.7 $ kubectl create -f deploy/1.7/ # Kubernetes0 码力 | 25 页 | 11.98 MB | 1 年前3Curve质量监控与运维 - 网易数帆
C u r v e 质 量 、 监 控 与 运 维 秦 亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等 多种场景自研的分布式存储系统: 高性能、低延迟 当前实现了高性能块存储,对接OpenStack和 K8s 网易内部线上无故障稳定运行近两年 已完整开源 需要利用科学的方法论和专业的工具,在整个 软件生命周期内更好地为用户服务: 质量——向用户交付稳定可靠的软件; 监控——直观地展示Curve运行状态; 运维——保障Curve始终稳定高效运行。 质量 ✓ 质量管理体系(设计、开发、review、CI) ✓ 测试方法论(单元测试、集成测试、系统测试) 监控 ✓ 监控架构 ✓ 指标采集、后端处理、可视化展示 运维 ✓ 运维特性 (易部署、易升级、自治) (易部署、易升级、自治) ✓ 运维工具(部署工具、管理工具) 4/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量 软件质量的定义是:软件与明确地和隐含地定义的需求相一致的程度。 为了确保最终交付的软件满足需求,必须将质量控制贯穿于设计、开发到测试的整个流程中。 设计 设计流程 文档规范 开发 编码规范与提交流程 版本管理0 码力 | 33 页 | 2.64 MB | 5 月前31.6 利用夜莺扩展能力打造全方位监控系统
利用夜莺扩展能力打造全方位监控系统 喻波 滴滴 专家工程师 目 录 运维监控需求来源 01 监控痛点:全面完备、跨云 02 夜莺介绍: 国产开源监控系统 03 夜莺设计实现:Agentd 数据采集 04 夜莺设计实现:Server 数据处理 05 夜莺设计实现:技术难点及细节 06 运维监控需求来源 第一部分 如果贵司的业务强依赖IT技术,IT故障会直接影响营业收入, 稳定性体系一定要重视起来,而监控,就是稳定性体系中至 关重要的一环 运维监控需求来源 01.监控的原始需求来自业务稳定性 左图是2013年的一个新闻,讲 Google宕机的影响。2020年也出现 过aws大规模宕机的情况,影响不 止是55万美元,直接影响大半个 互联网! 2018年有美国调研机构指出,如 果服务器宕机1分钟,银行会损失 27万美元,制造业会损失42万美 元 美团故障?滴滴故障?腾讯故障? 运维监控需求来源 01.监控的原始需求来自业务稳定性 如何减少服务停摆导致的经济损失?尽快发现故障并止损!故障处理过程中,监控是『发现』和『定位』两个环节 的关键工具。故障处理过程的首要原则是『止损』,因此,过程中的『发现』和『定位』都是面向尽快『止损』来 实现。 监控痛点:全面完备、跨云 第二部分 端上、链路、资源、组件、应用多维度跨云监控,不管哪个 环节出问题都能及时感知0 码力 | 40 页 | 3.85 MB | 1 年前3Flashcat 让监控分析变简单,Flashcat产品技术交流
北京快猫星云科技有限公司 Flashcat 产品技术交流 让监控分析变简单 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 由知名开源项⽬“夜莺”的核⼼开发团队组成: 夜莺是⼀款开源云原⽣监控⼯具,是中国计算机学会接受捐赠并托管的 第⼀个开源项⽬,在GitHub上有超过8500颗星,上百位社区贡献者, 上万家企业⽤户,是国内领先的开源可观测性解决⽅案。 公司简介:快猫星云是⼀家云原⽣智能运维科技公司 由国内顶级投资机构连续投资。 INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 快猫星云是国内开源监控领域最具专业性的团队之⼀ INTERNAL OR RESTRICTED, ALL RIGHTS RESERVED © 北京快猫星云科技有限公司 Flashcat 是什么 INTERNAL OR 北京快猫星云科技有限公司 Flashcat 的特点 统⼀采集 采⽤插件化思路,内置集成上百种采集插件,服务器、⽹络设备、中间件、数据库、应⽤、业务,云上 云下,均可监控,开箱即⽤。 统⼀告警 ⽀持指标告警、⽇志告警、智能告警,⽀持⼏⼗种数据源对接,收集各类监控系统的告警事件,进⾏统 ⼀的告警收敛、降噪、排班、认领、升级、协同,⼤幅提升告警处理效率。 统⼀观测 将 Metrics、Logs、Traces、Events、Profiling0 码力 | 43 页 | 6.54 MB | 1 年前3B站统⼀监控系统的设计,演进 与实践分享
B站统⼀一监控系统的设计,演进 与实践分享 梁梁晓聪 devops @lxcong About Me • 梁梁晓聪 • 2015年年加⼊入B站 • devops • 热爱新技术,热爱开源 • ⼩小宅男 故事的开始 B站炸了了.舆情监控(括弧笑脸) 我们的挑战 • 技术栈多 • 产品模块复杂 • 业务爆发式增⻓长 • 运维要求⾼高 当前情况: • 覆盖率低 覆盖率低 • 误报,漏漏报多 • 告警⻛风暴暴 监控问题爆发: 重新定义的监控系统 ✦ 完整的监控体系 ✦ 科学的告警策略略 ✦ 统⼀一的告警中⼼心 完整的监控体系 • 虚拟机 • 物理理设备 • 容器器 • 专线质量量 • 机房出⼝口质量量 • 交换设备 • http • tcp • ping 基础层 应⽤用层 • cache资源 • db资源 db资源 • mq资源 • lb资源 • es资源 • 分布式⽂文件 • 进程监控 业务层 • qps/tps • 耗时分布 • 饱和度 • 吞吐量量 • 依赖响应 • 缓存命中率 • 调⽤用链 • SLA • ⽇日志 播放质量量 • 点播/直播 • 播放卡顿 • 平均⾸首帧 • 播放失败率 • 弹幕加载 • cdn质量量 客户端质量量0 码力 | 34 页 | 650.25 KB | 1 年前34 【王琼】容器监控架构演进 王琼 YY直播
0 码力 | 23 页 | 2.17 MB | 1 年前3openEuler 23.09 技术白皮书
何实现集群内服务间的高效互通、满足应用 SLA 诉求已成为数据中心面临的关键问题,对云基础设施提出了很高的要求。 基于 K8S 的云基础设施能够帮助应用实现敏捷的部署管理,但在应用流量编排方面有所欠缺,服务网格的出现很好的 弥补了 K8S 流量编排的缺陷,与 K8S 互补,真正实现敏捷的云应用开发运维。但随着对服务网格应用的逐步深入,当前服 务网格的代理架构,数据面引入了额外的时延底噪开销,已成为业界共识的性能问题。 的部署密度。 Kmesh 基于可编程内核,将服务治理下沉 OS,实现高性能服务网格数据面,服务间通信时延对比业界方案提升 5 倍。 • 支持对接遵从 XDS 协议的网格控制面(如 istio) • 流量编排能力 - 负载均衡:支持轮询等负载均衡策略。 - 路由:支持 L4、L7 路由规则。 - 灰度:支持百分比灰度方式选择后端服务策略。 • sockamp 网格加速能力:以典型的 service OS (ipstack + iptables) 服务 A 服务 B 服务 A 服务 B 服务治理 流量治理 流量治理 服务治理 OS (Kmesh) Kmesh 基于可编程内核,将流量治理下沉 OS,实现流量路径多跳变一跳 业界网格 : 路径过长导致时延性能 X 倍增长 Kmesh: 流量路径多跳变一跳 特性增强 20 openEuler 23.09 技术白皮书 注: 1. 使能0 码力 | 52 页 | 5.25 MB | 1 年前3Uber 核心派单系统及其集群管理演化-李宁
• 所有程序运⾏行行在Linux裸机 • ⼏几乎全部机器器都是单点故障 • 软件升级和变更更是⾼高⻛风险活动 • ⽆无法扩容 2014架构运维问题与挑战 • 流量量⼀一年年涨5倍 • 不不变的话, ⼏几个⽉月后会被流量量压垮 2016年年架构 Demand Supply Optic Disco Geobase RTAPI Eyeball requests Trip requests 2016架构运维运维与挑战 • 优步, 设⽴立北北京和上海海数据中⼼心 • Uber Eats流量量激增 三年年来的运维强化(2016-2019) 架构调整: 多活, 容器器化, 软件⽹网络 部署管理理: ⾃自动化部署uDeploy 变更更管理理: P3系统 监控优化: M3监控系统, Blackbox外部监控 故障恢复: ⾃自愈⼒力力和⾃自动排障 流程优化: Ring0和Post Mortem Muttley ⼿手动发送1%流量量到新集群 服务健康检查,⾃自动流量量切换 部署管理理 •逐步部署 •Staging •Shadow •Canary •⾃自动部署 •⾃自动触发+⼈人⼯工审核 •根据监控⾃自动回滚 变更更管理理 监控优化: M3 • Uber内部⼤大规模Metric平台 • 开源: m3db/m3@github 监控优化: uBlackbox ⼀一部分核⼼心城市的实时监控状态0 码力 | 23 页 | 15.26 MB | 1 年前3Linux命令大全搜索工具 v1.8
arping 通过发送ARP协议报文测试网络 arptables 管理ARP包过滤规则表 arpwatch 监听网络上ARP的记录 as 汇编语言编译器 at 在指定时间执行一个任务 atop 监控Linux系统资源与进程的工具 atq 列出当前用户的at任务列表 atrm 删除待执行任务队列中的指定任务 awk 文本和数据进行处理的编程语言 axel 多线程下载工具 B badblocks 配置和显示Linux系统网卡的网络参数 ifdown 禁用指定的网络接口 ifstat 统计网络接口流量状态 iftop 一款实时流量监控工具 ifup 激活指定的网络接口 indent 格式化C语言的源文件 info Linux下info格式的帮助指令 init init进程是所有Linux进程的父进程 inotifywait 异步文件系统监控机制 insmod 将给定的模块加载到内核中 install 安装或升级软件或备份数据 iptables-restore 还原iptables表的配置 iptables-save 备份iptables的表配置 iptables Linux上常用的防火墙软件 iptraf 实时地监视网卡流量 iptstate 显示iptables的工作状态 ispell 检查文件中出现的拼写错误 J jed 主要用于编辑代码的编辑器 jobs 显示作业的状态 joe 强大的纯文本编辑器 join0 码力 | 1347 页 | 8.79 MB | 1 年前3
共 70 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7