GPU Resource Management On JDOS
0 码力 | 11 页 | 13.40 MB | 1 年前文档介绍了京东云操作系统(JDOS)上的GPU资源管理方案,主要围绕基于容器的服务展开。文档详细描述了用于实验的GPU容器、基于Kubeflow的机器学习训练服务以及模型管理和Serving服务的实现。通过容器化服务,用户可以便捷地进行GPU资源的实验、训练和部署,同时系统提供了完善的监控和资源释放机制,以提高GPU利用率。文档还提到通过HPA(Horizontal Pod Autoscaler)和GPU复用技术进一步优化资源使用效率。Автоматизация управления ClickHouse-кластерами в Kubernetes
0 码力 | 44 页 | 2.24 MB | 1 年前文档阐述了在Kubernetes中自动化管理ClickHouse集群的方法和工具,特别是通过ClickHouse Operator实现对集群的统一管理。Operator允许用户将ClickHouse集群视为一个统一资源,从而简化了集群的部署、管理和自动化任务。文档还提到了Kubernetes的优势,包括容器化系统构建、资源管理、自动化部署等,以及ClickHouse在Kubernetes中的应用场景,如快速构建数据存储、实现高度可移植性等。KubeCon2020/大型Kubernetes集群的资源编排优化
0 码力 | 27 页 | 3.91 MB | 1 年前文档探讨了大型Kubernetes集群中资源编排优化的问题与解决方案。随着云计算的普及,如何管理众多集群、资源和业务成为挑战,特别是在节点负载均衡、资源请求不当、多租户资源抢占以及水平扩展的灵活性方面。传统的基于Pod资源请求的调度方式可能导致节点负载不均衡,解决方案中Dynamic-Scheduler通过考虑实际负载水平进行调度,而DynamicQuota则用于防止不同业务间的资源抢占,确保重要业务获得资源保障。绕过conntrack,使用eBPF增强 IPVS优化K8s网络性能
0 码力 | 24 页 | 1.90 MB | 1 年前文档探讨了通过使用eBPF增强IPVS来优化Kubernetes服务网络性能的问题与解决方案。K8s Service通过VIP提供服务,支持ClusterIP和NodePort两种类型,主要采用IPVS模式。然而,传统IPVS依赖conntrack和iptables,可能导致性能瓶颈。文档提出绕过conntrack的方法,通过将IPVS Netfilter钩子从local-in移动到PREROUTING,并在eBPF中实现SNAT功能,从而提高效率和安全性。此外,文档还讨论了与行业其他方案的比较,包括性能测量中的挑战和建议,如确保测试环境一致、处理CPU过载等问题。最后,文档总结了在实现过程中遇到的问题及解决方案,例如conn_reuse_mode的低CPS问题和DNS解析延迟问题。
共 4 条
- 1