高效智能运维[云+社区技术沙龙第29期] - 腾讯云提高K8S集群资源利用率实践
云+社区技术沙龙 腾讯云提高K8S集群资源利用率实践 庄鹏锐 腾讯云高级工程师 资源利用率分析 Node节点资源碎片 Pod Resource(requests)配置不合理 WorkLoad/HPA 副本数设置不合理 业务空闲时间 解决方案 Pod 压缩 Node 超卖 HPA VPA 动态 调度 碎片 处理 Pod 资源压缩 • MutatingAdmission limits 两种资源计算方式 • CronHPA • HPA对象Enable 和 Disable • 动态调整 minRepliacs VPAPlus • 动态调整Container Cgroup • requets 和 limit 比例设置 • Resource Range设置 • CheckPoint对象timeout时间 • Pod对象更新时间 ` • 资源合法性校验 THANKS0 码力 | 10 页 | 1.39 MB | 1 年前3CloudExplorer 3.0 管理员手册v1.2
...................25 3 纳管云账号及资源...................................................................................................................26 3.1 纳管 VMware 资源池............................... ....................47 3.9 纳管 SmartX 资源池...................................................................................................49 3.10 纳管 Nutanix 资源池..................................... 77 4.3.5 配置对接 Radius 实现多因子认证................................................................. 86 5 资源及人员分权分域............................................................................................0 码力 | 308 页 | 0 Bytes | 1 年前3FIT2CLOUD CloudExplorer 产品白皮书 v1.7
大幅减少获取应用运行环境资源排期及总体等待时间................................. 7 1.3.2 大幅减少资源部署人工操作工作量及操作风险,解放人力..........................8 1.3.3 简化流程,降低协作沟通成本,缩短交付时间............................................ 9 1.3.4 减少资源浪费降低成本、IT 1 建立 IT 在线服务自动化门户......................................................................11 1.5.2 实现资源运行环境全生命周期管理............................................................12 1.5.3 实现运维工具深度整合、联动自动化.. ................................................................................23 2.4.2 虚拟化及云平台纳管资源同步....................................................................24 2.4.3 分权分域管理.............0 码力 | 60 页 | 0 Bytes | 1 年前3Zadig 面向开发者的云原生 DevOps 平台
部署 | 发布 服务三:设计 | 代码编写 | 构建 | 测试 | 部署 | 发布 以前:面向代码片段的串行交付 现在:面向多个服务编排的产品级自动化并行交付 服务一: 服务定义 | 构建 | 部署 | 测试 | 发布 服务二: 服务定义 | 构建 | 部署 | 测试 人淹没在系统的海洋里,无数平台手工切换 高人效 / 高质量 / 高效率 / 低成 本: 人在系统之外 / 上,复杂性下沉到单一平台 希望 工程师不再花时间在开发写代码之外的脏活累活,比如服务部署、找环境,服务编排等 Infra 的事情。 1 0 0 % 开 源 基 本 能 力 开 源 1.5 个月核心重构 65% 功能实现开源 支撑开源社区开发者环境 易 用 性 增 强 接入:安装 10 项目间依赖复杂,环境管理难 • 交付版本依赖工单,发布风险高 • 公共资源 / 业务资源利用率低 赋能多业务:一个平台解决了多异构项目的管理和规范 团队高效协作:定义团队角色工作流模板,随时可用云上环境 价值清晰呈现:为管理者提供全视角效能数据,赋能数字决策 人工低效操作减少 80% 构建资源利用率提升 60% 业务资源利用率提升 30% 统一治理内部规范,开发 自助上线;解放运维,工0 码力 | 59 页 | 81.43 MB | 1 年前3Zadig 面向开发者的云原生 DevOps 平台
发布 服务二:设计 | 代码编写 | 构建 | 测试 | 部署 | 发布 服务三:设计 | 代码编写 | 构建 | 测试 | 部署 | 发布 以前:面向代码片段的串行交付 现在:面向多个服务编排的产品级自动化并行交付 服务一: 服务定义 | 构建 | 部署 | 测试 | 发布 服务二: 服务定义 | 构建 | 部署 | 测试 | 发布 服务三: 服务定义 | 构建 | 部署 | 测试 | 人淹没在系统的海洋里,无数平台手工切换 高人效/高质量/高效率/低成本: 人在系统之外/上,复杂性下沉到单一平台 希望 工程师不再花时间在开发写代码之外的脏活累活,比如服务部署、找环境,服务编排等Infra的事情。 1 0 0 % 开 源 基 本 能 力 开 源 1.5 个月核心重构 65% 功能实现开源 支撑开源社区开发者环境 易 用 性 增 强 接入:安装10分钟以内,成功率达 项目间依赖复杂,环境管理难 • 交付版本依赖工单,发布风险高 • 公共资源/业务资源利用率低 赋能多业务:一个平台解决了多异构项目的管理和规范 团队高效协作:定义团队角色工作流模板,随时可用云上环境 价值清晰呈现:为管理者提供全视角效能数据,赋能数字决策 人工低效操作减少 80% 构建资源利用率提升 60% 业务资源利用率提升 30% 统一治理内部规范,开发 自助上线;解放运维,工 作重心向业务稳定性保障,0 码力 | 59 页 | 23.57 MB | 1 年前3高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏
服务器数量,也就是操作单元,有二十余万。 随着容器技术的普及,操作单元的数量还会暴涨。 所有业务之间无关联 业务操作单元暴涨 运维转型,困难重重 蓝鲸进化第1步:抽象原子平台 蓝鲸配置平台 获取资源 新建大区 主机注册 创建DB 初始化数 据 拉起业务 进程 布署监控 开新区 部署程序 测试验证 清理脏数 据 对外开放 获取新主 机 CMDB注 册信息 关闭故障 大区入口 流水线+运行环境托管 蓝鲸进化第3步:平台化开发模式让运维应用自生长 传统开发模式 应用需求 公共 组件 环境 构建 资源 准备 代码 部署 应用 开发 监控 告警 日志 追溯 基于PaaS的开发模式 应用需求 公共 组件 环境 构建 资源 准备 代码 部署 应用 开发 监控 告警 日志 追溯 运维开发 负责企业技术运营领域(CI、CD、CO)相关场景的系统构建,例如持续集成、日志分析、资 嘉为蓝鲸CD:ITOM融合的统一运维解决方案 运维服务总线API Gateway、运维流程编排引擎 企业IT对象:服务器、存储、网络、虚拟化、私有云、公有云、混合云、超融合、容器、业务应用、基础服务 运维自动化 数据中心自 动化 应用运维自 动化 业务运维自 动化 CMP 跨系统编排 与调度 运行监控和故障管理 第三方监控接入 基础监控 采集 存储 检测 告警 故障自愈0 码力 | 26 页 | 8.25 MB | 1 年前3openEuler 24.03 LTS 技术白皮书
嵌入式版本。 2022 年 3 月 30 日,基于统一的 5.10 内核,发布面向服务器、云计算、边缘计算、嵌入式的全场景 openEuler 22.03 LTS 版本, 聚焦算力释放,持续提升资源利用率,打造全场景协同的数字基础设施操作系统。 2022 年 9 月 30 日,发布 openEuler 22.09 创新版本,持续补齐全场景的支持。 2022 年 12 月 30 日,发布 openEuler 提供各自擅长服务的框架,例如 Linux 提供通用的文件系统、网络服务,实时操作系统提供实时控制、 实时计算等服务;多 OS 基础设施是从工程角度为把不同 OS 从工程上有机融合在一起的一系列机制,包括资源表达与分配,统一 构建等功能。 混合关键性部署框架当前能力: - 支持裸金属模式下 openEuler Embedded Linux 和 RTOS(Zephyr/UniProton)的生命周期管理、跨 、更安全的子树委派以及更丰富的特性支持。 1)统一层级结构: 简化 cgroup 的层级管理,用户不需要为不同的资源管理配置多个独立的 cgroup 树,降低多个控制器协同工作控制难度。提 供了更一致和简化的接口,使得配置更简单易懂。更高的安全性,避免父子 cgroup 资源竞争:cgroup v2 新增只有父 cgroup 内部无进程时才能启用子 cgroup 控制器的限制。 2)更完善的线程模式管理:0 码力 | 45 页 | 6.18 MB | 1 年前3openEuler 23.09 技术白皮书
同时发布边缘和嵌入式版本。 2022 年 3 月 30 日,基于统一的 5.10 内核,发布面向服务器、云计算、边缘计算、嵌入式的全场景 openEuler 22.03 LTS 版本,聚焦算力释放,持续提升资源利用率,打造全场景协同的数字基础设施操作系统。 2022 年 9 月 30 日,发布 openEuler 22.09 创新版本,持续补齐全场景的支持。 2022 年 12 月 30 日,发布 openEuler 的影响。 • 混部多优先级:允许 cgroup 配置 -2~2 的 cpu.qos_level,即多个优先级,使用 qos_level_weight 设置不同优先级权 重,按照 CPU 的使用比例进行资源的划分。并提供唤醒抢占能力。在提高机器利用率的同时,保证高优和延迟敏感的 在线业务不受离线业务的影响。 • 可编程调度:基于 eBPF 的可编程调度框架,支持内核调度器动态扩展调度策略,以满足不同负载的性能需求,具备 子系统提供对系统中一组进程打开的文件数量(即句柄数)进行分组管理,相比于已 有的 rlimit 方法,能更好的实现文件句柄数的资源控制(资源申请及释放、资源使用动态调整、实现分组控制等), 并为资源管理提供方便调用的接口,实现避免某个进程打开过多文件造成整个系统资源不足无法正常工作。 • cgroupv1 使能 cgroup writeback:cgroup writeback 用于控制和管0 码力 | 52 页 | 5.25 MB | 1 年前3多云管下的自动化运维架构-刘宇
《Puppet实战手册》 《Python进阶》 • QCon金牌讲师,QCon优秀出品人 目录 ① 行业趋势分析 ② 多云下运维的挑战 ③ 多云平台架构如何设计? ④ 困难以及挑战 资源统一管理 监控 账单 ⑤ 未来的展望 行业趋势分析 2017 年主流公有云故障 2018 年主流公有云故障 2019 年主流公有云故障 1% 的机率毁掉一家公司 行业趋势分析 。。。 多云下运维的挑战 Gartner:云管理平台需要具备多云管理、自服务、计量计费、资源弹性及服务编排, 能够自动化部署和配置相关资源,可以与企业现有IT管理系统集成的服务化能力 云管平台架构设计 私有云 公有云 虚拟化 接⼝口适配 多云统⼀一编排 ⾃自助服务 多云管理理 资源优化 云管平台架构设计 Performance Monitoring ITSM Resources Access Layer • 云商接口不统一 • SDK • 异常 • 账单 • 参数字典及转换 • 异步任务 • 日志统一 挑战: 资源统一管理 Sprint Cloud Sprint Boot Common 挑战: 资源统一管理 Rest API API Gateway (Kong) EventBus Ser IAM Message Queue Service0 码力 | 32 页 | 6.05 MB | 1 年前3openEuler 22.03 LTS SP2 技术白皮书
同时发布边缘和嵌入式版本。 2022 年 3 月 30 日,基于统一的 5.10 内核,发布面向服务器、云计算、边缘计算、嵌入式的全场景 openEuler 22.03 LTS 版本,聚焦算力释放,持续提升资源利用率,打造全场景协同的数字基础设施操作系统。 2022 年 9 月 30 日,发布 openEuler 22.09 创新版本,持续补齐全场景的支持。 2022 年 12 月 30 日,发布 openEuler 特性。用于解决服务器系统中,混部不同类型业务时,由于共享资源的竞争(Cache,DMC, Interconnect),而带来的某些关键应用性能下降或者系统整体性能下降的问题。 14 openEuler 22.03 LTS SP2 技术白皮书 内核创新 SMT 驱离防止优先级反转特性 目前云场景中,在线业务与离线业务混合部署提升资源利用率的同时,如何保证在线业务的 QoS 是当前亟需解决的问 性解决了由于被驱离离线任务占用临界资源无法释放的问题。 混部场景中,开启了 SMT 驱离离线任务特性,需要将 CONFIG_QOS_SCHED_SMT_EXPELLER 打开。 应用场景 开启混部 SMT 驱离特性后,假设 CPUA 和 CPUB 互为 SMT 核,将在线任务绑在 CPUA 上,离线任务绑在 CPUB 上。 CPUA 上的在线任务长时间 100% 占用 CPU 资源,则 CPUB 上的离0 码力 | 48 页 | 5.62 MB | 1 年前3
共 97 条
- 1
- 2
- 3
- 4
- 5
- 6
- 10