A Day in the Life of a Data Scientist Conquer Machine Learning Lifecycle on Kubernetes
and some of their shortcomings • Why DevOps? • Why Containers, Kubernetes, and Helm? • Intro to Kubeflow, Helm, Argo • Demos • Image classification with Inception v3 and transfer learning • Automate repeatable repeatable ML experiments with containers • Deploy ML components to Kubernetes with Kubeflow • Scale and test ML experiments with Helm • Manage training jobs and pipelines with Argo • Serve trained models scale down when idle • Parallel training instead of sequential: huge time saver for large trainings Kubeflow • Machine Learning Toolkit for Kubernetes • To make ML workflows on Kubernetes simple, portable0 码力 | 21 页 | 68.69 MB | 1 年前3基于 KUBERNETES 的 容器器 + AI 平台
运⾏行行和构建应⽤用 Rudder - 应⽤用编排技术框架 Cyclone - 持续集成与交付引擎 运⾏行行 AI 应⽤用(机器器学习) - 58s 视频演示 Kubeflow 的应⽤用 Kubeflow 之上 构建集群与管理理资源 多集群和镜像仓库 • 企业想要的 • 隔离性和安全性 • 容错性与混合云 • 功能多样性与上线流程 • 如何实现 • K8s - ⽀支持 AI ⼯工作流 运⾏行行 AI 应⽤用 KUBEFLOW 的应⽤用 • Kubeflow 社区的联合创始⼈人 • kubeflow/tf-operator • 定义 TFJob Spec (CRD) • 跟踪 TensorFlow 任务运⾏行行状态 • ⽀支持分布式 TensorFlow 任务 KUBEFLOW 之上 • 借⼒力力容器器平台提供⽣生产级的集群资源管理理0 码力 | 19 页 | 3.55 MB | 1 年前3GPU Resource Management On JDOS
GPU 容器 2.基于 Kubeflow 的机器学习训练服务 3.模型管理和模型 Serving 服务 Experiment Training Serving 均基于容器,不对业务方直接提供 GPU 物理机 GPU 实验 JDOS 常规的容器服务 ,使用 gpu 的 zone , 自行设定相应的镜像即 可,有完善的周边服务 训练服务 • 提供基于 kubeflow 的分布式训练方案 –0 码力 | 11 页 | 13.40 MB | 1 年前3
共 3 条
- 1