高效智能运维[云+社区技术沙龙第29期] - 腾讯云提高K8S集群资源利用率实践
云+社区技术沙龙 腾讯云提高K8S集群资源利用率实践 庄鹏锐 腾讯云高级工程师 资源利用率分析 Node节点资源碎片 Pod Resource(requests)配置不合理 WorkLoad/HPA 副本数设置不合理 业务空闲时间 解决方案 Pod 压缩 Node 超卖 HPA VPA 动态 调度 碎片 处理 Pod 资源压缩 • MutatingAdmission0 码力 | 10 页 | 1.39 MB | 1 年前32022年美团技术年货 合辑
879 工程效能 CI/CD 之流水线引擎的建设实践 912 美团外卖搜索基于 Elasticsearch 的优化实践 933 美团图灵机器学习平台性能起飞的秘密(一) 953 提升资源利用率与保障服务质量,鱼与熊掌不可兼得? 971 标准化思想及组装式架构在后端 BFF 中的实践 992 外卖广告大规模深度学习模型工程实践 | 美团外卖广告工程实践专题连载 1013 数据库全量 YOLOv5/YOLOX 使用的 Backbone 和 Neck 都基于 CSPNet[5] 搭建,采用了多分 支的方式和残差结构。对于 GPU 等硬件来说,这种结构会一定程度上增加延时,同 时减小内存带宽利用率。下图 2 为计算机体系结构领域中的 Roofline Model[8] 介绍 图,显示了硬件中计算能力和内存带宽之间的关联关系。 4 > 2022年美团技术年货 图 2 Roofline Model 技术,YOLOv6s_repopt INT8 QPS 达到了 552,相较 FP16 提升了~ 40%。我 们对服务器的各项指标进行了监测,发现此时 T4 GPU 的利用率只有 95%,还有压 榨空间,而 16 核 CPU 利用率已经超过了 1500%,几乎满负荷运转。我们推测整个 线上服务的“瓶颈”可能在 CPU,而图片预处理会使用大量 CPU 资源。 表 9 服务器资源配置 算法 < 330 码力 | 1356 页 | 45.90 MB | 1 年前3openEuler 22.03 LTS SP2 技术白皮书
同时发布边缘和嵌入式版本。 2022 年 3 月 30 日,基于统一的 5.10 内核,发布面向服务器、云计算、边缘计算、嵌入式的全场景 openEuler 22.03 LTS 版本,聚焦算力释放,持续提升资源利用率,打造全场景协同的数字基础设施操作系统。 2022 年 9 月 30 日,发布 openEuler 22.09 创新版本,持续补齐全场景的支持。 2022 年 12 月 30 日,发布 openEuler 降或者系统整体性能下降的问题。 14 openEuler 22.03 LTS SP2 技术白皮书 内核创新 SMT 驱离防止优先级反转特性 目前云场景中,在线业务与离线业务混合部署提升资源利用率的同时,如何保证在线业务的 QoS 是当前亟需解决的问 题。在开启 SMT 场景中,同时运行在同一个物理核上的在离线业务与在线业务之间存在干扰。针对这一诉求,设计混部 SMT 驱离方案,用于隔离离线任务对在线任务的 范围 : 100—1000 默认值 : 100 配置建议 : • 过长,可能会导致在线任务停止运行后,离线任务处于 sleep 状态,CPU 一段时间内处于 idle 状态,降低 CPU 利用率。 • 过小,会导致离线任务频繁唤醒,干扰在线任务。 功能描述 CPU* HT1 HT2 online task offline task 严重干扰 CPU* HT1 HT2 online0 码力 | 48 页 | 5.62 MB | 1 年前3Kubernetes全栈容器技术剖析
Fuxi容器存储:实现有状态应用和分布式中间件容器化部署 15 全球首发云容器实例服务CCI :更快的弹性,更高的资源利用率 持续发布: 小时级->分钟级 弹性伸缩: 分钟级->秒级 应用交互性能提 升1~2倍 资源利用率提 升50% 挑战 收益 传统虚机应用上线慢 业务扩容时间长 同业务压力下资 源利用率低 传统虚机应用交 互性能低 • 应用可以基于容器镜像一站式自动化“构建发布上线” • 应用快速上线、扩容、升级,秒级弹性扩缩容 • 基于容器更细粒度共享,提升资源利用率 16 支持多租隔离、租户内部各用户之间的权限隔离,基于组织提供 镜像的访问权限管理 安全保障 组织级别隔离及镜像粒度权限控制,共同保障镜像安全 权限控制简单便捷 提供界面,分配镜像的访问权限 对接DevCloud、GitHub、GitLab,一键式完成从代码下载到 镜像构建的完整流程,并支持对接CCE完成镜像部署 530 万 中移动咕互娱运维平台承担所有业务APP用户鉴权、计费前端和广告推送,高峰并发请求25000次/秒、1.2亿次/小时。 客户问题: •资源利用率低:虚拟化模式弹性能力差,平台容量按最高业务峰值设计(300VM,4C8G),日常负荷下平台利用率<30%(一半时间利用 率<10%),造成资源极大浪费 •升级耗时长、易出错:APP迭代需求快,如新游戏上线、特性增强等,每周2~3次补丁发布,需手工操作,升级工作耗时2小时,效率低0 码力 | 26 页 | 3.29 MB | 1 年前3为何选择VMware?
� � 10 聚合:将彼此隔离的资源转换为共享池 VMware Infrastructure 能将来自物理服务器、存储和网络群的计算资源聚合为逻辑资源池,从而最 大限度地提高效率和利用率。如果没有聚合为逻辑池的能力,企业最终得到的都是若干小资源,即使 进行了虚拟化和服务器整合也是如此。 VMware 独家提供了一种资源池模型,该模型能够自行管理和自行优化物理资源,同时还支持 IT 需要从第三方购买。 • VMware DRS 确保实现最高的资源利用率,同时保持业务部门对其基础架构的控制权和自主权。 分配:富有弹性的资源池 共享资源池中的自动工作负载平衡可实现资源的优化使用。这样可以确保企业充分利用资源,而且在 需要时有正确的资源可用。 VMware DRS 持续监控资源池中的资源利用率,并可智能地根据业务需求来调整资源,从而使您能 够: • 将 IT 资源动态分配给优先级最高的应用程序。创建规则和策略,以便按照优先级将资源分配到 虚拟机。 • 给予业务部门 IT 自主性。为业务部门提供专用的 IT 基础架构,同时仍通过资源池获得较高的 硬件利用率。 • 在对硬件资源进行集中 IT 控制的同时,授权业务部门在自己的资源池内建立和管理虚拟机。 “通过 [VMware] DRS,我们能够将 VI 团队解放出来,让他们进行其他项目。”0 码力 | 34 页 | 862.76 KB | 1 年前3openEuler 22.09 技术白皮书
缘和嵌入式版本。 2022 年 3 月 30 日,基于统一的 5.10 内核,发布面向服务器、云计算、边缘计算、嵌入式的全场景 openEuler 22.03 LTS 版本, 聚焦算力释放,持续提升资源利用率,打造全场景协同的数字基础设施操作系统。 2022 年 9 月 30 日,发布 openEuler 22.09 创新版本,充分释放多样性算力,持续深化全场景创新,打造极致迁移能力, 实现欧拉鸿蒙互联互通。 性能。 4. 北向生态:在 libvirt 上支持 StratoVirt 的驱动,丰富北向软件生态。 虚拟化混合调度 云数据中心资源利用率低是行业普遍存在的问题,提升资源利用率已成为一个重要的技术课题。将业务区分优先级混合部 署(简称混部)运行是典型有效的资源利用率提升手段。混部的核心技术是资源隔离控制。 HybridSched 是虚拟机混部全栈解决方案,包括增强的 OpenStack 集群调度能力、全新单机 QoS 管理组件 Skylark、以 及内核态基础资源隔离能力。其中 Skylark 是一种高低优先级虚拟机混部场景下的 QoS 感知资源调度器,在保障高优先级虚 拟机 QoS 前提下提升物理机资源利用率。 功能描述 1. 集群调度增强:增强 OpenStack Nova 能力,支持优先级语义调度。 2. 功耗控制:通过对低优先级虚拟机的 CPU 带宽进行限制,以此达到降低整机功耗的同时保障高优先级虚拟机0 码力 | 13 页 | 1.39 MB | 1 年前324-云原生中间件之道-高磊
来,使得计算层彻底变为无状态,可以做到灵活的拓展 能力和故障恢复能力。这样在计算层也实现了Serverless 模式。 • 通过RDMA,绕过CPU,直接和远端内存通信,在计算与 存储分离、计算与内存分离架构上,提升网络利用率和 性能,也能得到传统数据库网络和性能上一样的体验。 • 底层Data Chunk,采用去中心存储,单体失败不影响数 据的完整性,并且自动自愈(Serverless)。 • 通过跨域数据同步能力,实现多地域数据多活。 • 在离线分离部署及粗粒度调度无法提高资源的利用率:在传统Hadoop架构下,离线作业和在线作业往往分属不同的集 群,然而在线业务、流式作业具有明显的波峰波谷特性,在波谷时段,会有大量的资源处于闲置状态,造成资源的浪 费和成本的提升。在离线混部集群,通过动态调度削峰填谷,当在线集群的使用率处于波谷时段,将离线任务调度到 在线集群,可以显著的提高资源的利用率。然而,Hadoop Yarn目前只能通过N ,镜像只需提供应用必须的依赖环境,使其存储空 间得到了极大的减少,上传和下载镜像的时间变的更短,快速启动和销毁变的很容易,总体极大的缩短了应用的 发布周期。 • 在资源利用率方面,借助云原生架构的技术能力,多方位提升系统的资源利用率,如细粒度调度(将CPU和内存 这两个核心资源划分的更细,从而更充分的分配系统资源)、动态调度(基于节点真实负载情况,而非静态划分 的资源,将任务调度到已分配了资源但是0 码力 | 22 页 | 4.39 MB | 6 月前3openEuler 22.03-LTS 技术白皮书
时发布边缘和嵌入式版本。 2022 年 3 月 30 日,基于统一的 5.10 内核,发布面向服务器、云计算、边缘计算、嵌入式的全场景 openEuler 22.03 LTS 版本,聚焦算力释放,持续提升资源利用率,打造全场景协同的数字基础设施操作系统。 openEuler 作为一个操作系统发行版平台,每两年推出一个 LTS 版本。该版本为企业级用户提供了一个安全稳定可靠 的操作系统。 openEuler 在云业务场景中,交互类延时敏感的在线业务存在潮汐现象,CPU 资源利用率普遍较低 (~15%),在线和离线业务混 合部署是提升资源利用率的有效方式。现有的内核资源分配和管理机制,混部后的在线业务的性能抖动大,服务质量无法 得到有效保障。openEuler 面向云原生业务混部场景,创新 CPU 调度算法和内存回收算法,支撑提升系统的 CPU 利用率 和保证在线业务的服务质量。 QAS(Quality Aware0 码力 | 17 页 | 6.52 MB | 1 年前3openEuler全新升级,成为数字基础设施开源操作系统
边缘计算 openEuler SDK openEuler DevOps: • 磁盘资源隔离,大数据性能提升30% • 应用感知调度,hbase性能提升20% • 容器/虚机混部, • 资源利用率15%-30% • 边云管理协同框架, • 跨边云单应用秒级发放 缘起:一个运动控制系统(机器人,数控机床….) 智能控制 (人机交互, 路径规划,导航) 行为控制 (轨迹追踪、碰撞检测,状态检测) + 调度,首先实现多系统混合部 署,再实现系统间彼此隔离保护,最后通过调度提升资源利用率 • 学术界:更多关注共享资源下的混合关键调度(Mixed Critical Scheduling),不关注隔离与保护 • 工业界:更多关注时空隔离下的混合关键性部署,使得各个系统间 互相隔离,资源往往是预先静态分配,整体利用率不高 发展路径1:从分布式向集中式演进 发展路径2:节点能力和功能诉求的提升0 码力 | 15 页 | 1.35 MB | 1 年前3Zadig 面向开发者的云原生 DevOps 平台
项目间依赖复杂,环境管理难 • 交付版本依赖工单,发布风险高 • 公共资源 / 业务资源利用率低 赋能多业务:一个平台解决了多异构项目的管理和规范 团队高效协作:定义团队角色工作流模板,随时可用云上环境 价值清晰呈现:为管理者提供全视角效能数据,赋能数字决策 人工低效操作减少 80% 构建资源利用率提升 60% 业务资源利用率提升 30% 统一治理内部规范,开发 自助上线;解放运维,工 作重心向业务稳定性保0 码力 | 59 页 | 81.43 MB | 1 年前3
共 242 条
- 1
- 2
- 3
- 4
- 5
- 6
- 25