QCon北京2017/智能化运维/Self Hosted Infrastructure:以自动运维 Kubernetes 为例
0 码力 | 73 页 | 1.58 MB | 1 年前3第29 期| 2023 年9 月- 技术雷达
这种兴趣的 复苏至少有一部分原因是受到了人工智能辅助软件开发的影响,这不可避免地引发了一个问题:它是否产生了 积极的影响?虽然衡量标准可能变得更加细致入微,但真正的生产力衡量仍然难以捉摸。 本期主题 © Thoughtworks, Inc. All Rights Reserved. 7 众多大语言模型 大语言模型(LLMs)为现今人工智能的许多重要突破奠定了基础。目前的应用多使用类似聊天的界面进行交 OpenAI 的 ChatGPT,Google Bard,Meta 的 LLaMA 以及亚马逊的 Bedrock 等)在我们的讨论中占据重要地位。更广泛来说,大语言模型可以应用于从 内容生成(文本、图片和视频)、代码生成到总结概述和翻译等各种问题。通过自然语言的抽象层,这些大模型 成为了强大的工具库,被诸多信息工作者广泛使用。我们讨论了大语言模型的各个方面,包括自托管式大语言 模型,相较 SLSA。对于大多数 团队来说,致命弱点仍然是依赖项中存在漏洞,通常是来自于多层的间接依赖项。Dependabot 等工具可以通 过创建拉取请求(PR)来更新依赖项。不过,团队仍然需要制定工程纪律,以确保及时处理这些 PR,尤其是 对长时间不活跃的应用程序或服务提交的 PR。 如果系统具有广泛的测试覆盖范围——不仅有完善的单元测试,还包括有功能和性能测试,并且构建流水线必 须运行所有这些测试以及安全扫描,我们更提倡自动合并依赖项更新0 码力 | 43 页 | 2.76 MB | 1 年前3云计算白皮书
展和服务模式创新的集中体现,是信息化发展的重大变革和必然趋 势,是信息时代国际竞争的制高点和经济发展新动能的助燃剂。云 计算引发了软件开发部署模式的创新,成为承载各类应用的关键基 础设施,并为大数据、物联网、人工智能等新兴领域的发展提供基 础支撑。加快推动云计算创新发展,顺应新一轮科技革命和产业变 革趋势,是推进中国式现代化进程的关键。 过去一年,全球和我国云计算产业保持快速发展,并呈现出以 下特点: 体细粒度化等诉求下,底层硬件在云计算的驱动下也因云而变。2022 年 6 月,阿里云发布 CIPU(Cloud infrastructure Processing Units,云 基础设施处理器),其是一套全新的计算架构体系,能够在通用计算、 大数据、人工智能等场景中展现更好的性能。2022 年 12 月,AWS 云计算白皮书(2023 年) 7 发布第五代虚拟化芯片 Amazon Nitro v5 为云服务提供底层支持,应 续交织发展放大赋能效用,以满足多样化用户群体的个性需求。云 计算充分发挥数字基础设施作用,全球厂商正积极基于云底座提供 全新的大数据、区块链、人工智能服务。2022 年谷歌提出开放、可 扩展的“数据云”愿景,构建信息统一化的“数据云”平台。百度 智能云践行“云智一体”发展路线,充分结合 AI 能力与自身云基础 设施能力,发布全栈自研的 AI 大底座。 安全防护方面,云原生安全成为厂商抢占市场的新赛道。近年0 码力 | 47 页 | 1.22 MB | 1 年前3深度解析CNCF社区⾸个基于Kubernetes的边缘计算平台KubeEdge
低时延:为满⾜足低时延的要求,需要在离业务现场最近的边缘构建解决⽅方案,减少业务处理理时延。� ➔ 海海量量数据:物联⽹网时代边缘数据爆炸性增⻓长,难以直接回传⾄至云端且成本⾼高昂,数据在本地进⾏行行分析和过滤,节省⽹网络带宽。� ➔ 隐私安全:数据涉及到企业⽣生产和经营活动安全,在边缘处理理企业保密信息和个⼈人隐私。� ➔ 本地⾃自治:不不依赖云端的离线处理理能⼒力力和⾃自我恢复能⼒力力。� 低时延 海海量量数据 隐私安全 本地⾃自治 边缘计算应⽤用场景——智慧园区� ➔ 基于边缘计算打造智慧园区,通过视频监控+AI分析实现从⼈人防到技防,提升园区运营效率,提⾼高园区住户体验。� ➔ 对监控视频智能分析,实时感知⼊入侵、⼈人流量量⼤大等异常事件,降低园区的⼈人⼒力力成本。� ➔ 端侧⼈人脸抓取,视频分析在边缘侧执⾏行行。云端管理理边缘应⽤用全⽣生命周期,⽆无缝升级。云端AI模型训练,边缘侧推理理。� 监控 模型� 容器器� 容器器� 数据上传� 周界 检测 模型� 边缘计算应⽤用场景——智能家居� ➔ 基于边缘计算打造⾼高效、舒适、安全、便便利利、环保的智能家居环境。� ➔ 云端推送边缘应⽤用,实现应⽤用全⽣生命周期管理理和边缘设备托管。� ➔ 端侧涵盖多种智能设备,边缘侧就近处理理隐私数据,回传必要数据到云端。� 端� 边� 云� 容器器� 摄像头� 语⾳音设备�0 码力 | 20 页 | 2.08 MB | 1 年前3运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智
监控预警的阀值设置 • 收集监控日志 存储管理 • 对于所有 Kubernetes Volume 按照业务类型提供统一的管理 • 用户在进行Volume操作的时候 根据业务进行中间层处理,包括 但不限于访问权限,大小申请, 读写操作等 • 根据用户不同的角色进行集群不同的环境选择 • 在业务层面让用户感知为统一的环境 多集群管理 云提供服务形式 • 企业级架构 Kubernetes 融合与架构解析 AI (Artificial Intelligence) 人工智能(英语:Artificial Intelligence, AI 亦称机器智能,是 指由人工制造出来的系统所表现出来的智能。通常人工智能是 指通过普通电脑实现的智能。同时也指研究这样的智能系统是 否能够实现,以及如何实现的科学领域。 不同的框架和工具都有其优点长处。 AI 工程师工作流程 存储对接 • 存储通常都由云平台 通过SaaS服务提供 • 在 AI 平台中对于存 储进行统一的管理和 操作 数据预处理 AI 工程师的大部分工作都是在 做数据预处理的部分,而可视 化 UI 则可以大大减少 AI 工程 师的工作量。 AI 工具及其研发框架的整合 模型训练资源池管理 • AI 模型训练会耗费巨大的资源并且长时间占用0 码力 | 77 页 | 14.48 MB | 1 年前3石油巨头与Kubernetes, Microservice & DevOps 共舞1114最终版
开发管理 持续部署 持续测试 持续集成 持续监控 需求提出 需求管理场景 需求完成 需求处理 需求规划排期 ü 需求管理⼯具量化跟踪 ü 需求分级处理 ü 统⼀需求管理流程 ü 需求⾯板跟踪 ü 需求分级管理 ü 责任到⼈ ü 处理状态跟踪 ü 知识管理⼯具对知识协 同共享 ü 需求处理过程全链路追 溯 ü 及时通知 开发测试场景 任务完成 构建集成 部署⾃测 编码实现 交付内容版本可追踪 ü 交付内容关联需求 ü 交付内容关联开发任务 ü 交付内容管理变更范围 ü 容器云平台⼀键部署 ü 丰富部署策略 ü 内置丰富监控指标 ü ⾃动化监控警报 ü 智能扩缩容 ü 容器云平台屏蔽部署 架构的复杂性。 ü 版本发布⾯板,跟踪版 本发布进度 接受发版⼯单 ü ⼀键同步镜像到⽣产环境 同步镜像 部署⽣产 带来的提升 过程中能⼒提升 通过瑞道平台进⾏需求到上线运维的管理,打通了需 14. 05-14-数据库设计规范V1.0 15. 05-15-微服务开发规范框架V1.0 § 1、项⺫管理 § 2、查看报表 § 1、浏览项⺫ § 2、任务查看 § 3、添加评论 § 4、任务处理 § 5、任务跟踪 § 6、浏览空间 § 7、部署应⽤,管理配额 § 8、管理PVC § 1、浏览项⺫ § 2、分配任务 § 2、Bug跟踪 § 3、Bug统计 § 1、部署应⽤,管理配额 § 2、设置Pipeline0 码力 | 33 页 | 7.49 MB | 1 年前3Kubernetes for Edge Computing across Inter-Continental Haier Production Sites
• tensorflowers.cn • Kubeflow Chinese community initiator • 企业级产品与解决方案 • Compass: 打通业务与数据、从数字化到智能化转 型 • Clever: 基于容器的 AI PaaS 平台(AI Devops、资 源管理任务调度) 工业互联网平台 - 制造业大势所趋 • 全球工业互联网平台数量 > 150 国家 面向业务管理 弹性伸缩 API Gateway 负载均衡 应用编排 日志监控 告警 服务发现 API 业务中台 多租户管理 运维中台 云端操作系统 数据中台 面向数据与智能 数据管理 大数据 机器学习 资源管理 深度学习 AI工具 API IOT中台 面向行业解 决方案 边缘计算 数据通道 数据分析 API 海尔工业互联网 - 微服务之框架支持 实现对 GPU 集群资源进行管理,根 据用户作业请求自动分配和回收 GPU 资源。 GPU 集群管理 对接存储系统,管理数据集;提供 notebook 交互式代码开发和调试工 具;管理数据预处理批作业。 模型开发 海尔工业互联网 – 才云数据解决方案 海尔工业互联网 – 才云数据解决方案 海尔工业互联网 – 才云数据解决方案 海尔工业互联网 – 才云数据解决方案 边缘计算场景0 码力 | 33 页 | 4.41 MB | 1 年前3第1930期:Kubernetes基础介绍
自动发布和回滚:可以自动实现版本的发布和回滚。 秘钥和配置管理:对于密码等信息,专门提供了Secert对象为其解耦。 存储编排:支持多种不同类型的存储,包括本地存储、云存储、网络存储等。 批量处理执行:除服务型应用,还支持批处理作业CI(持续集成),如有需要,一样可以实现容器故障后修复。 Kubernetes特点: 可移植: 支持公有云,私有云,混合云,多重云(multi-cloud) 可扩展: 模块化 册和发现等机制 Controller Manager控制管理器(kube-controller-manager):k8s里所有资源对象的自动化控制中心,可以理解为 资源对象的“大总管”。运行着所有处理集群日常任务的控制器。包括节点控制器、副本控制器、端点控制器及服务账号 和令牌控制器。负责维护集群的状态,比如故障检测、自动扩展、滚动更新等。 Scheduler调度器(kube-schedule 转发列表中,服务端就可以通过负载均衡器的对外IP+服务端口号访问此服务,而客户端的请求最后会转发到哪个Pod, 是由负载均衡器的算法所决定。 运行在Node节点上的kube-proxy进程其实就是一个智能的负载均衡器,他负责把Service的请求转发到后端的某个 Pod实例上,并在内部实现服务的负载均衡与会话保持机制。 但是Service不是共用一个负载均衡器的IP地址,而是每个Service分配0 码力 | 49 页 | 4.11 MB | 1 年前3腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅
◼尽量减少为了流控而主动丢包 下图是两个进程都拼命争抢网络带宽时的效果。两个进程的 带宽和时延都得不到任何程度的保证。 ◼队列: 不增加队列, 对每个报文直接在正常代码路径上进行决策 ◼Cgroup区分(标记): 在正常处理流程中,报文查找到目标socket结构之 后,根据socket的owner process来确定cgroup ◼报文决策: 令牌桶 + 共享令牌池 + 显式借令牌 ◼限速方式: ECN标记 + TCP滑窗 共享云盘基于cephFS • 内置云盘基于cephRBD • 腾讯内部ceph版本,微信同款 能力扩展:GPU支持 分布式存储Ceph 海量小数据读写优化 不同用户配额管理 任务带盘迁移 智能拓扑感知 GPU卡拓扑感知 资源访问代价树决策 资源调度算法解决碎片化 异构GPU统一管理 多种调度策略,多租户管理GPU卡 与CPU核自动绑定 支持单机多卡和多机多卡 发表论文:《Gaia Docker 通过将GPU设备及运行时的库转为volume挂载到容器中实现了容 器与驱动的解耦。但是一个GPU设备仅能挂载到一个容器中,不 支持容器间共享GPU设备 ConvGPU 仅支持内存资源的共享且仅处理单个GPU 容器使用GPU的问题: • 需要特定的硬件设备 • 不支持容器共享 • 仅支持内存资源虚拟化 • 仅支持单个GPU卡 采用Device Plugin: • GPU资源的发现 • 为任务分配相应的硬件0 码力 | 28 页 | 3.92 MB | 1 年前3从Mesos到Kubernetes
Production Branch Branch preview change 流量镜像 一键压测 接入层(TCPCopy) 支持流量放大、缩小 一键批处理压测 服务网格 智能负载均衡 流量路由策略 服务保护机制 混沌军团 随机关闭生产环境中的实例,模拟服 务故障 引入人为延时,模拟服务降级 寻找未使用、可被清理的资源0 码力 | 30 页 | 2.12 MB | 1 年前3
共 27 条
- 1
- 2
- 3