pdf文档 阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践

7.81 MB 21 页 0 评论
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档阐述了阿里巴巴在超大规模Kubernetes集群运维中的实践,重点介绍了神龙裸金属服务器的优势,包括性能、弹性和支持再虚拟化。2017年阿里云神龙正式商用,2018年底阿里经济体全面上云,2019年完成基础设施上云并成功支撑双11峰值流量。文档还提到了规模化运维的关键技术,如监控体系(SLI、SLO、SLA)、节点故障自愈和统一风控,以及阿里云原生化的技术组合:ASI + 容器 + 神龙。
AI总结
### 总结 阿里巴巴在云原生领域的实践与运维经验可以总结如下: #### 1. **阿里巴巴全站上云历程** - **2018年底**:阿里经济体全面上云。 - **2019年**:完成基础设施上云,并以双11峰值流量为考验,验证了系统的稳定性和可靠性。 #### 2. **神龙裸金属服务器(X-Dragon)** - **全称**:弹性裸金属服务器。 - **优势**: - **性能**:去除了虚拟化带来的8%性能损耗。 - **弹性**:支持快速扩展和调整。 - **支持再虚拟化**:为多样化虚拟化技术(如Kata、Firecracker等)探索和创新提供可能。 - **商用时间**:2017年10月阿里云神龙正式商用。 #### 3. **技术选型与优势** - **高性能**:通过去虚拟化技术提升基础设施效率。 - **支持二次虚拟化**:为多样化虚拟化技术提供支持。 - **最佳组合**:将Alibaba Serverless Infrastructure (ASI)、容器技术(runc/runv/kata等)与神龙结合,实现阿里云原生的最佳实践。 - **资源利用率优化**:通过大规模混部和优先级差异化提升资源使用效率。 #### 4. **规模化集群运维管理** - 研发了适用于数十万节点规模的运维管理系统。 - **系统架构**: - 监控告警(SLI、SLO、SLA)。 - 多种报警方式(钉钉、邮件、电话、ChatOps)。 - 自助诊断与节点故障自愈机制。 - 统一风控与集中决策。 - **日常运维**:1人运维数十万节点,实现了高效化管理。 #### 5. **当前与未来** - **当前**:通过峰值流量考验,稳定支撑双11等高峰期业务。 - **未来**:继续推进云原生化全景图,聚焦智能化、自动化、极致化的云原生技术发展。 #### 6. **技术专家简介** - **周涛(广侯)**:阿里巴巴云原生应用平台技术专家,参与数十万节点规模化运维管理系统研发,主导云原生架构升级。 通过全站上云、神龙裸金属服务器的引入,以及规模化运维管理的持续优化,阿里巴巴在云原生领域展现了强大的技术实力和创新能力。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 9 页请下载阅读 -
文档评分
请文明评论,理性发言.