云原生中的数据科学KubeConAsia2018Final
14.91 MB
47 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
摘要 | ||
文档主要介绍了云原生环境中数据科学的应用,特别是在KubeCon Asia 2018会议上的相关内容。文档强调了数据科学管道的重要性,包括从问题发现到生产的完整流程,并重点讨论了数据科学中的关键原则:自主权、可重复性、数据血缘和自动化。文档还提到了Sam Kreter在会议上的演讲内容,并提供了相关的资源和工具链接,如Pachyderm和Azure Kubernetes Service。 | ||
AI总结 | ||
# 《云原生中的数据科学 - KubeCon Asia 2018》总结
## 核心观点:
1. **自主性**:数据科学家需要自由选择工具和方法,避免被固定流程束缚。
2. **可重复性**:确保数据科学实验和结果能够被准确复现。
3. **数据血缘**:清晰追踪数据来源和处理过程,确保数据的可信度。
4. **自动化**:通过自动化工具和流程提升效率,减少人工干预。
## 数据科学流程:
- **业务需求与问题发现**:明确业务目标,识别数据科学问题。
- **开发**:构建实验和模型。
- **生产**:部署和监控模型,确保实际用户需求得到满足。
## 工具与资源:
- **Pachyderm**:用于数据流水线和机器学习模型的自动化部署。
- **Data Science Bill of Rights**:确保数据科学家的权益和最佳实践。
- **Azure Container Registry Build**:用于容器构建和镜像管理。
- **Azure Kubernetes Service**:支持数据科学管道的容器化和 orchestration。
- **Pipeline Images**:提供预构建的机器学习管道镜像。
总结:云原生环境为数据科学提供了高效、可扩展的解决方案,通过自动化、可重复性和数据血缘管理,帮助数据科学家更专注于业务问题的解决,同时确保模型的稳定性和可靠性。 |
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余
35 页请下载阅读 -
文档评分