Zabbix高级应用 -- K8S 集群监控
Zabbix高级应用 --K8s集群监控 ����� ��������FiberHome 演讲主题: • CactiFans • Zabbix • Microservice • K8s • Golang https://blog.cactifans.com/ 无边界监控 应用架构发展趋势 数据采集 RESTful 接口 LLD – 低级别发现 低级发现提供了一种监控主机上变化实体,并0 码力 | 25 页 | 11.98 MB | 1 年前3Uber 核心派单系统及其集群管理演化-李宁
Service C RPC Muttley ⼿手动发送1%流量量到新集群 服务健康检查,⾃自动流量量切换 部署管理理 •逐步部署 •Staging •Shadow •Canary •⾃自动部署 •⾃自动触发+⼈人⼯工审核 •根据监控⾃自动回滚 变更更管理理 监控优化: M3 • Uber内部⼤大规模Metric平台 • 开源: m3db/m3@github 监控优化: ⾃自愈⼒力力和⾃自动排障 动态配置和监控(内部, 外部)联动,⾃自动回滚。 ⾃自动排查故障, 通过 tracking系统 开源: Jaeger@github 右侧是Uber在线服务依 赖关系图。对于⼤大规模 复杂系统,⼈人⼯工处理理故 障速度太慢 Ring0 • 单⼀一核⼼心组,拥有⾼高系统权 线,包括流量量切换 • 在较⼤大故障的处理理中起到领导 和汇报作⽤用 流程优化 Post Mortem0 码力 | 23 页 | 15.26 MB | 1 年前3从十到千,响应团队规模的敏捷与DevOps实践-冯斌
从十到千,响应团队规模的敏捷与DevOps实践-冯斌0 码力 | 27 页 | 8.15 MB | 1 年前3高效智能运维[云+社区技术沙龙第29期] - 腾讯云提高K8S集群资源利用率实践
云+社区技术沙龙 腾讯云提高K8S集群资源利用率实践 庄鹏锐 腾讯云高级工程师 资源利用率分析 Node节点资源碎片 Pod Resource(requests)配置不合理 WorkLoad/HPA 副本数设置不合理 业务空闲时间 解决方案 Pod 压缩 Node 超卖 HPA VPA 动态 调度 碎片 处理 Pod 资源压缩 • MutatingAdmission0 码力 | 10 页 | 1.39 MB | 1 年前3JumpServer ⼴受欢迎的开源堡垒机
互联⽹ 互联⽹⾏业拥有⼤量的异构云资产,并持续追求 IT 系统运维的安全和⾼效,是堡垒机⼀直以来的忠实⽤户群体。 医疗医药 医疗医药⾏业的信息化⽔平呈现⾼速发展的态势,IT 资产规模快速扩张,迫切需要通过堡垒机实现⼤规模 IT 资产的统⼀管 理与安全运维。 房地产及酒店 房地产和酒店⾏业的业务系统通常随业务经营场所分布式构建,IT 基础设施⾼度分散,需要通过堡垒机实现 IT 基础设施的 统⼀安全运维。 X-Pack X-Pack X-Pack X-Pack X-Pack X-Pack JumpServer 提供的特⾊功能 体验极佳的 Web Terminal ⼴泛类型 资产⽀持 超⼤规模 分布式资产⽀持 ⽀持审计录像 的云端存储 内置多租户体系 软件 / 硬件 灵活选择 体验极佳的 Web Terminal Linux Web Terminal Windows Web Terminal - 多云资产⾃动同步与录⼊ - 最⼴泛的多云管理⽀持 特⾊功能 ⾃动同步与纳管 超⼤规模分布式资产⽀持 - ⽀持多分⽀、多区域的集群分布式互联部署 - 特⾊功能 统⼀存储 智能 DNS 负载均衡 JS - 1 JS - 2 JS - N Redis 集群 MySQL 集群 domain.jumpserver.com branch1.jumpserver.com 负载均衡0 码力 | 49 页 | 14.87 MB | 1 年前3FIT2CLOUD CloudExplorer 产品白皮书 v1.7
的依赖程度及要求越来越高,IT 规模以及 IT 组织 规模增大分工越来越细化,以及云时代的来临云基础架构带来的多样化,使得 IT 部门越来 越不堪重负,形成了两个日趋激化的矛盾。 一方面,业务快速发展要求 IT 响应时间越来越短,迭代开发测试速度越来越快, 形成 IT 响应时间越来越短的要求与现有僵化基础设施、低效 IT 供给服务模式的矛 盾。 另一方面,资源池规模越来越大、种类越来越多,运维工具独立多样化,IT ,运维工具独立多样化,IT 组织 规模不断变大,分工越来越细化,形成日益增长的服务管理压力与现有低效匮乏协 作管理工具、模式的矛盾。 因此,大家都希望迫切希望能破解上面的矛盾,一方面提升 IT 服务响应能力,满足业 务快速发展的要求,另一方面能够根本上解决问题,让 IT 在保证服务能力的同时能减少压 力和困难,提升管理能力效率,减少资源浪费,解放人力降低成本。 随着云计算的不断发展和成熟,企业 提供的功能以及核心产品能力,让需要了解产品的相关人士快速对产品以上几个方面有一个 基本全面的了解。 1.2 产品定位 面向大中型企业信息科技/技术部门,IT 管理及应用开发运维人员,在云时代基础架构 日益多样、规模不断增长、不断变革,运维工具多样分散独立的环境下,给项目生命周期中 各角色在开发测试、投产以及系统运维环节提供应用运行环境服务、管理、运维、运营场景 的一站式的支持。如图 1 图所示。 通过建立整合0 码力 | 60 页 | 0 Bytes | 1 年前3Zadig 面向开发者的云原生 DevOps 平台
YAML/Chart 模板管理数百微服务 • 每个技术栈抽象一套构建模板 • 运维统一工作流规范,开发自主使用 • 跨多项目复用模板 扫码查看易快报案例 强大免运维的模板库 • 系统纬度:集群、项目、服务、环境、工作流 • 项目纬度:构建、测试、部署, DevOps 指标 • 迭代纬度:需求到发布效率、质量分析 • 效能度量:耗时分析、通过率统计、趋势分析 客观精准的效能洞察 • 可重用降低运维成本 • 一些组织可能过度依赖高级工程 师管理发布流程和基础设施,导 致资源浪费和效率低下 Zadig 平台工程模式 工程规模数据: • 1500+ 产研工程师 Vs. 2 人运维 • 50 + 个 Kubernetes 全球集群 • 300+ 个数字产品(资产沉淀) • 1600+ 条自动化工作流(全域) • 900+ 个服务化运行环境 通过整合业务、产品 全球需求如期交付率从 65% 提升到 95% • 工程师体验满意度 NPS 从 65% 提升到 90%+ • 开发工程师自助式进行版本发布 • 平台团队可支撑 5 倍以上研发规模扩充 极氪汽车平台工程落地成果 随着中国车企全球增长,海外业务拓展带来全球研发、交付、推广和运营挑战,在这出海挑战中,早期路特斯的软件交付流程 是基于 Jenkins 流水线设计的, Jenkins0 码力 | 59 页 | 81.43 MB | 1 年前3Zadig 面向开发者的云原生 DevOps 平台
一套YAML/Chart 模板管理数百微服务 • 每个技术栈抽象一套构建模板 • 运维统一工作流规范,开发自主使用 • 跨多项目复用模板 扫码查看易快报案例 强大免运维的模板库 • 系统纬度:集群、项目、服务、环境、工作流 • 项目纬度:构建、测试、部署,DevOps 指标 • 迭代纬度:需求到发布效率、质量分析 • 效能度量:耗时分析、通过率统计、趋势分析 客观精准的效能洞察 • 可重用降低运维成本 • 一些组织可能过度依赖高级工程 师管理发布流程和基础设施,导 致资源浪费和效率低下 Zadig 平台工程模式 工程规模数据: • 1500+ 产研工程师 Vs. 2 人运维 • 50 + 个 Kubernetes 全球集群 • 300+ 个数字产品(资产沉淀) • 1600+ 条自动化工作流(全域) • 900+ 个服务化运行环境 通过整合业务、产品、研发 人天(约500万/年) • 全球需求如期交付率从 65% 提升到 95% • 工程师体验满意度 NPS 从 65% 提升到 90%+ • 开发工程师自助式进行版本发布 • 平台团队可支撑 5 倍以上研发规模扩充 极氪汽车平台工程落地成果 随着中国车企全球增长,海外业务拓展带来全球研发、交付、推广和运营挑战,在这出海挑战中,早期路特斯的软件交付流程 是基于 Jenkins 流水线设计的,Jenkins0 码力 | 59 页 | 23.57 MB | 1 年前3openEuler 23.09 技术白皮书
场景化能力,最终实现统 一操作系统支持多设备,应用一次开发覆盖全场景。 openEuler 覆盖全场景的创新平台 开源操作系统的构建过程,也是供应链聚合优化的过程。拥有可靠开源软件供应链,是大规模商用操作系统的基础。 openEuler 从用户场景出发,回溯梳理相应的软件依赖关系,理清所有软件包的上游社区地址,源码和上游对应验证。完 成构建验证、分发、实现生命周期管理。开源软件的构建、运 GMEM 接口分配内存时,将不受加速器的物理内存容量所限制,应用可以透明地超分内存(当前上限为 CPU 的 DRAM 容量)。GMEM 将较冷的设备内存页换出到 CPU 内存上,拓展了应用处理的问题规模,实现高性能、低门槛训推。 通过 GMEM 提供的极简异构内存管理框架,在超大模型训练中,GMEM 性能领先 NVIDIA-UVM。随着内存使用量增长,领 先比例不断提升,在超分两倍以上时可领先 等主流应用场景的性能。 特性增强 19 openEuler 23.09 技术白皮书 Kmesh 项目 随着 AI、直播等大应用的发展及传统应用云化改造的深入,数据中心集群规模越来越大、应用类型也越来越丰富,如 何实现集群内服务间的高效互通、满足应用 SLA 诉求已成为数据中心面临的关键问题,对云基础设施提出了很高的要求。 基于 K8S 的云基础设施能够帮助应用实现敏捷的部署管理,但在应0 码力 | 52 页 | 5.25 MB | 1 年前3openEuler 24.03 LTS 技术白皮书
统支持多设备,应用一次开发覆盖全场景。 openEuler 覆盖全场景的创新平台 服务器 云计算 边缘 嵌入式 基础公共服务 服务器 开源操作系统的构建过程,也是供应链聚合优化的过程。拥有可靠开源软件供应链,是大规模商用操作系统的基础。 openEuler 从用户场景出发,回溯梳理相应的软件依赖关系,理清所有软件包的上游社区地址、源码和上游对应验证。完成构建验证、 分发、实现生命周期管理。开源软件的构建、 安全容器方案:iSulad+shimv2+StratoVirt 安全容器方案,相比传统 Docker+QEMU 方案,底噪和启动时间优化 40%。 • 双平面部署工具 eggo:Arm/x86 双平面混合集群 OS 高效一键式安装,百节点部署时间 <15min。 新场景 • 边缘计算:发布面向边缘计算场景的版本 openEuler 24.03 LTS Edge,支持 KubeEdge+ 边云协同框架,具备边云应用统一管 。 • SDK 镜像:提供对应硬件的计算加速工具包和开发环境,用户可进行 Ascend CANN 或 NVIDIA CUDA 等应用的开发和调试。同时, 可在该类容器中运行高性能计算任务,例如大规模数据处理、并行计算等。 • AI 框架镜像:用户可直接在该类容器中进行 AI 模型开发、训练及推理等任务。 • 模型应用镜像:已预置完整的 AI 软件栈和特定的模型,用户可根据自身需求选择相应的模型应用镜像来开展模型推理或微调0 码力 | 45 页 | 6.18 MB | 1 年前3
共 89 条
- 1
- 2
- 3
- 4
- 5
- 6
- 9