A Day in the Life of a Data Scientist Conquer Machine Learning Lifecycle on Kubernetes
and some of their shortcomings • Why DevOps? • Why Containers, Kubernetes, and Helm? • Intro to Kubeflow, Helm, Argo • Demos • Image classification with Inception v3 and transfer learning • Automate repeatable repeatable ML experiments with containers • Deploy ML components to Kubernetes with Kubeflow • Scale and test ML experiments with Helm • Manage training jobs and pipelines with Argo • Serve trained models scale down when idle • Parallel training instead of sequential: huge time saver for large trainings Kubeflow • Machine Learning Toolkit for Kubernetes • To make ML workflows on Kubernetes simple, portable0 码力 | 21 页 | 68.69 MB | 1 年前3基于 KUBERNETES 的 容器器 + AI 平台
运⾏行行和构建应⽤用 Rudder - 应⽤用编排技术框架 Cyclone - 持续集成与交付引擎 运⾏行行 AI 应⽤用(机器器学习) - 58s 视频演示 Kubeflow 的应⽤用 Kubeflow 之上 构建集群与管理理资源 多集群和镜像仓库 • 企业想要的 • 隔离性和安全性 • 容错性与混合云 • 功能多样性与上线流程 • 如何实现 • K8s - ⽀支持 AI ⼯工作流 运⾏行行 AI 应⽤用 KUBEFLOW 的应⽤用 • Kubeflow 社区的联合创始⼈人 • kubeflow/tf-operator • 定义 TFJob Spec (CRD) • 跟踪 TensorFlow 任务运⾏行行状态 • ⽀支持分布式 TensorFlow 任务 KUBEFLOW 之上 • 借⼒力力容器器平台提供⽣生产级的集群资源管理理0 码力 | 19 页 | 3.55 MB | 1 年前3《TensorFlow 快速入门与实战》8-TensorFlow社区参与指南
������ ����� ��/���TensorFlow ������������ • TensorFlow ���� • TensorFlow ��-TFX • TensorFlow ��-Kubeflow • ���� TensorFlow ������ • ML GDE � TensorFlow ��������� ��� �� TensorFlow ���� TensorFlow �//�.�����/��������/��.�-����������������.�. �//�.�����/��������/��.�-�����.�-���� TensorFlow ��-Kubeflow ���� AI ���� Business Requirement Production Design Data Processing Model Training Production Verification Business Success ���� ����� ���� ��-��-�� ��� Kubeflow ���� https://github.com/kubeflow/kubeflow Kubernetes ���� https://github.com/kubernetes/kubernetes ���� TensorFlow0 码力 | 46 页 | 38.88 MB | 1 年前32021 中国开源年度报告
1 onnx/onnx 1065.554415393090 3294 1818 1 onnx/onnx 352 244 1232 202 2 kubeflow/kfserving 909.2438621878980 934 3208 2 kubeflow/kfserving 344 278 682 222 3 horovod/horovod 830.6332018793580 1908 2348 1 onnx/onnx 1065.554415393090 3294 1818 1 onnx/onnx 352 244 1232 202 2 kubeflow/kfserving 909.2438621878980 934 3208 2 kubeflow/kfserving 344 278 682 222 3 horovod/horovod 830.6332018793580 1908 2348 372 582 19 lf-edge/ekuiper 169 218 128 202 64 milvus-io/milvus 工作时间分布打孔图 onnx/onnx 工作时间分布打孔图 kubeflow/kfserving 工作时间分布打孔图 2021 中国开源年度报告 65 Gitee 数据 1 概述 Gitee 是开源中国旗下的代码托管平台,至今已有超过 800 万开发者用户。我们对托管在0 码力 | 132 页 | 14.24 MB | 1 年前3GPU Resource Management On JDOS
GPU 容器 2.基于 Kubeflow 的机器学习训练服务 3.模型管理和模型 Serving 服务 Experiment Training Serving 均基于容器,不对业务方直接提供 GPU 物理机 GPU 实验 JDOS 常规的容器服务 ,使用 gpu 的 zone , 自行设定相应的镜像即 可,有完善的周边服务 训练服务 • 提供基于 kubeflow 的分布式训练方案 –0 码力 | 11 页 | 13.40 MB | 1 年前3Kubernetes for Edge Computing across Inter-Continental Haier Production Sites
Kubernetes 到 Kubeflow • Google 原生 Borg 容器团队 • CMU 校友与世界金牌、冠军 • 中国技术社区引领者 • Kubernetes 中文官网组织者 • github.com/kubernetes/kubernetes-docs-cn • TensorFlow 中文社区运营者 • tensorflowers.cn • Kubeflow Chinese community0 码力 | 33 页 | 4.41 MB | 1 年前32021 中国开源年度报告
actor_num 0 milvus-io/milvus 2172.3983776531900 4756 1 onnx/onnx 1065.554415393090 3294 2 kubeflow/kfserving 909.2438621878980 934 3 horovod/horovod 830.6332018793580 1908 4 feast-dev/feast onnx/onnx 工作时间分布打孔图 onnx/onnx Punch Chart for Work Time Distribution kubeflow/kfserving 工作时间分布打孔图 kubeflow/kfserving Punch Chart for Work Time Distribution 【专家点评】[Expert Comment]0 码力 | 199 页 | 9.63 MB | 1 年前35 Python深度学习实践
Eval Data TensorFlow Serving TensorFlow Hub TensorFlow Lite TensorFlow JS 5. Pipeline Kubeflow Runtime Airflow Runtime 6. 协作 Takeaways • 在不同设备上执行训练 • 基于AI产品的全流程 • 深度学习实践: • 质量 • 效率 • 专注0 码力 | 38 页 | 4.85 MB | 1 年前3KubeCon2020/腾讯会议大规模使用Kubernetes的技术实践
De-Scheduler Rosource Manage & Schedule Ceres Job Queue Manager Spark-Operator OfflineJobs Scheduler Kubeflow Hybrid Deploy StatefulSetPlus-Operator Tencent Cloud Mesh MultiCluster-Route-Manager Application0 码力 | 19 页 | 10.94 MB | 1 年前3Best practices for building Kubernetes Operators
itGinkgo exampleUseful links ● Difference between controller and operator - https://github.com/kubeflow/training-operator/issues/300 ● Explanation of Kubernetes validation against objects/schemas -0 码力 | 36 页 | 2.19 MB | 5 月前3
共 10 条
- 1