阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践
Kubernetes 集群运维实践 关注“阿里巴巴云原生”公众号 回复 1124 获取 PPT自我介绍 •嵌入式、微服务框架 •2017 年加入阿里巴巴,负责阿 里集团数十万集群节点规模化运 维管理系统的研发工作 •2019 年参与集团全面上云项目 并经历了整体架构的云原生升级 演进,稳定支撑双11峰值流量分享内容 • 阿里全站上云 • 神龙 (what & why) • 规模化集群运维实践 CI/CD k8s extended Service Mesh 安全容器 运维管控 在离线混部 额度管控 监控体系 多租隔离 上层业务 集 团 业 务运维挑战 • 规模大 • 集群规模大 (数十个集群),节点数量多 (数十万节点) • 业务线多、应用数量多、应用类型复杂 (有状态、无状态、多语言) • 基础环境复杂 • 大规模 在线、离线 混部 (运维打通) • 装机模板、OS版本0 码力 | 21 页 | 7.81 MB | 5 月前324-云原生中间件之道-高磊
作为总体集成方,会降低安全集成成本 可信计算环境:OS安全、TPM加密、TEE可信环境 云原生安全:镜像安全、镜像仓库安全、容器加固隔离、通信零信任 (Istio零信任、Calico零信任、Cilium零信任、WorkLoad鉴权、WorkLoad 间授权等)、DevSecOps(安全左右移等等,比如代码或者镜像扫描)、 RASP应用安全、数据安全、态势感知与风险隔离 由于云原生托管的应用是碎片化的,环 标准化能力-承载无忧-E2E云原生纵深安全保障-4-技术建议方案 技术 说明 优点 缺点 SAST(静态应用程序 安全测试) 白盒测试,通过污点跟踪对源代码或者二进制程序(也包括Docker镜像等) 进行静态扫描,尽可能前置,在IDE编写代码或者提交代码时进行,将极 大优化整体效率和成本 可以无视环境随时可以进行,覆盖漏洞类型全面, 可以精确定位到代码段 路径爆炸问题,并一定与实际相符合,误报率较 结构化/半结构化数据,支持高吞吐量实时入库及数据实时查询,实现数据资源 智慧化运营。 优势 低成本存储: 支持PB级数据存储 高并发: 千亿数据实时分析 数据源 设备监控 传感器 轨迹数据 车联网 业务集群 物联网套件写入 云原生 DB 轨迹查 询|实时 监测 MR 云原 生DB 统计 分析 物联网数据存储和查询 将车联网数据、设备监控数据、客流分析管控数据、交通数据、传感器数据实时 写入HBase中0 码力 | 22 页 | 4.39 MB | 5 月前316-Nocalhost重新定义云原生开发环境-王炜
Docker 镜像,并以⼯作负载的形式对其进⾏部署。利⽤ DevOps 流⽔线中的持续集成和持续部署, 配合 Kubernetes 探针、HPA、应⽤⾃愈的能⼒,彻底解放了微服务应⽤的部署和运维环节。 但我们忽略了⼀个关键节点:开发阶段 微服务应⽤使⽤ Kubernetes ⼯作负载封装后,解决了开发过程应⽤的快速启动问题,开发⼈员只需要在本地 安装单节点的 Kubernetes 集群,例如 Minikube、Kind ,由于应⽤很难在 Docker 容器之外运⾏,所以 每次代码修改,都需要经历以下步骤: 执⾏ docker build 构建镜像 执⾏ docker tag 对镜像进⾏标记 执⾏ docker push 推送镜像到仓库 修改 Kubernetes ⼯作负载的镜像版本 等待镜像拉取结束 等待 Pod 重建 查看修改后的代码效果 这直接拖慢了开发的循环反馈过程,每次修改,动辄需要数分钟甚⾄⼗分钟的等待时间。 2021/1/20 3 / 7 开发者 应⽤ 集群 开发空间 通过对这些⻆⾊和资源的重新整合,Nocalhost 重新定义了云原⽣开发环境,并带来了全新的云原⽣开发体 验。 为了快速理解 Nocalhost 重新定义的云原⽣开发环境,让我们⾸先站在不同的⻆⾊来看 Nocalhost 能给他们 带来什么。 开发⼈员: 摆脱每次修改需要重新 build 新镜像以及⻓时间的循环反馈,修改代码⽴即⽣效 ⼀键0 码力 | 7 页 | 7.20 MB | 5 月前3TiDB v8.5 中文手册
· · · · · · · · · 83 3.1.1 部署本地测试集群 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 83 3.1.2 在单机上模拟部署生产环境集群 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 104 4.2.1 使用 TiDB Cloud Serverless 构建 TiDB 集群· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 104 4.2.2 使用 TiDB 的增删改查 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 508 5 部署标准集群 524 5.1 TiDB 软件和硬件环境建议配置 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·0 码力 | 5095 页 | 104.54 MB | 9 月前3TiDB v8.4 中文手册
· · · · · · · · · 79 3.1.1 部署本地测试集群 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 79 3.1.2 在单机上模拟部署生产环境集群 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 100 4.2.1 使用 TiDB Cloud Serverless 构建 TiDB 集群· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 100 4.2.2 使用 TiDB 的增删改查 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 504 5 部署标准集群 520 5.1 TiDB 软件和硬件环境建议配置 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·0 码力 | 5072 页 | 104.05 MB | 9 月前3TiDB v8.2 中文手册
· · · · · · · · · 63 3.1.1 部署本地测试集群 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 63 3.1.2 在单机上模拟部署生产环境集群 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 84 4.2.1 使用 TiDB Serverless 构建 TiDB 集群 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 84 4.2.2 使用 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 437 5 部署标准集群 453 5.1 TiDB 软件和硬件环境建议配置 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·0 码力 | 4987 页 | 102.91 MB | 9 月前3逐灵&木苏-阿里巴巴 K8S 超大规模实践经验
•曾凡松(逐灵),当前主要负责 k8s 在阿里巴巴场景中的规模化落地,将 k8s 应用于阿里最核心的业务,帮助客 户以云原生的方式管理应用并获得效率、 稳定性及成本的改善。 •汪萌海(木苏),经历了阿里巴巴集团 集群调度从自研 sigma 系统迁移到 k8s 体系的过程,目前主要负责解决阿 里巴巴集团在大规模场景下使用 k8s 碰到的稳定性、容器编排质量和性能问 题。❖ 阿里巴巴容器的发展历程 ❖ 基于 k8s 技术成果,大幅降低了数据中心 的资源成本 2019 全面拥抱云原生 阿里业务全面上云,运维体系全 面拥抱云原生,基于 k8s 生态在 阿里内部蓬勃发展。在 2019 双 11 中,k8s 体系支撑了阿里史上 规模最大的集群,并提供了极速 的应用扩容体验 2015 野蛮生长 体验到使用容器部署应用的优势 后,阿里内部发展出众多的运维 平台,包括 AliSwarm,Zeus, Hippo 等,极大地降低了业务运 Sufficient expansion capability to meet the needs of diverse application operations.阿里巴巴的 k8s 集群规模 • 数十个集群 • 数十万的节点 • 单集群规模 10,000 节点 • • 数万个应用 • 超百万的容器 Online Service AI Job FaaS Middleware Resource management0 码力 | 33 页 | 8.67 MB | 5 月前3sealos 以 kubernetes 为内核的云操作系统
AI 知识库 Sealos 介绍 以 kubernetes 为内核的云操作系统 整个数据中心抽象成一台服务器,一切皆应用,让用云像用个人电脑一样简单! Kubernetes是云操作系统内核,整个集群是一个整体 Sealos是云操作系统发行版本 Linux发行版,如redhat Linux kernel CPU 内存 磁盘 Linux发行版,如redhat Linux kernel 提供最基础的核心能力 容器管理、编排调度、资源隔离 驱动层实现资源抽象 自由切换,到处运行 Sealos API Sealos CLI Desktop 裸金属 AWS 阿里云 更多······ boot 集群镜像 租户管理 应用管理 函数计算 消息队列 数据库 缓存 计算驱动 网络驱动 存储驱动 自由组装 内聚解耦 化整为零 大道至简 sealos 的能力 • 10 秒上线一个自带域名和 秒上线一个自带域名和 https 的 nginx 应用 • 其它应用同理如博客系统 低代 码平台等 java/go/python/node.js/html 轻松运行到 sealos 上 • 一个集群多个部门多个组 织共同使用 • 相互安全隔离 • 支持共享与协作 • 20 秒启动高可用 mysql/pgsql/mongo/redis 数据 库 • 写代码像写博客一样简单 • AI 自动编码,毫秒级上线,00 码力 | 29 页 | 7.64 MB | 9 月前309-harbor助你玩转云原生-邹佳
原生典型技术包括容器、服务网络、 微服务、不可变基础设施和声明性API等。 v1.0 by CNCF 容器-更轻量级和灵活的虚拟化 镜像-应用软件打包与分发 OCI: https://opencontainers.org/ OCI制品(artifact):镜像,Helm Chart,CNAB,OPA bundle等等 云原生与制品管理 [2] Registry: •制品存储仓库 •分发制品的媒介 排运行 • 所需镜像皆打包在离线 包内 1 在线安装包 • 通过Docker-compose编 排运行 • 所需镜像从Dockerhub 来拉取 2 Helm Chart • 通过Helm来安装 • 目标为K8s集群 • 仅聚焦Harbor组件安装 • goharbor/harbor-helm 3 K8s Operator • 通过K8s CRD实现编排 • 目标为K8s集群 • 专注于HA模式支持 Settings 提供以项目为单位的逻辑隔离,存储共享 不同角色具有不同的访问权限,可以与其它用户系统集成 配额管理 制品的高效分发-复制 [1] 基于策略的内容复制机制:支持多种过滤器(镜像库、tag和标签)与多种触 发模式(手动,基于时间以及定时)且实现对推送和拉取模式的支持 初始全量复制 增量 过滤器 目标仓库 源仓库 目标项目 源项目 触发器 推送(push)或者拉取(pull)模式0 码力 | 32 页 | 17.15 MB | 5 月前3开课吧基于混合云的Kubernetes平台落地实践-程亮
多云多K8S多环境平台 K8S集群(多个) 管理后台 发布平台 提升资源使用率 1 多云冗余高可用 2 环境并行互不影响 3 P-2 线下多环境一期方案 ‣ 一键拉起master镜像新环境 ‣ 如何确保环境间资源互不影响 ‣ 一期方案存在的问题与挑战 ‣ 如何实现线下多环境 • 一键拉起环境 注意点 • 数据建设依赖于规划 • 数据如何切分 原理 • 所有镜像自动生成 • 一键master镜像部署 一键master镜像部署 1. 注册中心 2. Mysql Redis ES 3. 全链路微服务 4. 自动数据同步 • 一期多环境平台架构图 CDN / LB / WAF / NG K8S集群 namespace1 namespace… namespaceN service1 service2 service3 … … … … … service1 service2 service3 发布平台 • 按需分支发布 • 多环境完全并行 • 一期方案的问题与挑战 1 2 3 多环境资源“假”隔离 Namespace隔离,共享资源 数据依赖成本高 所有存储都是独立搭建的 集群规模大,运维工作量大 环境数目越多,资源成本,维护成本越高 挑战 P-3 多环境优化实战 ‣ 为什么要多环境访问严格隔离 ‣ 如何借助多云保证有状态服务高可用 ‣ 如何做到激增流量时,全链路联动扩缩容0 码力 | 22 页 | 7.42 MB | 9 月前3
共 112 条
- 1
- 2
- 3
- 4
- 5
- 6
- 12