微博在线机器学习和深度学习实践-黄波
冷备容灾:基于checkpoint机制(Local模式&Remote模式),实现参数服务的高可用,支持基于模型的异构集群迁移,支持集 群扩缩容 • 性能优化 • 通信优化:数据请求(PULL&PUSH)聚合,同模型多矩阵并发,锁粒度优化,性能提升5-10倍 • 缓存优化:使用堆外内存与LRU过期机制,解决GC引起的性能损耗,性能提升3-5倍 • 分区优化:支持多种分区策略(RANGE/HASH/MOD),解决数据倾 PS&MPI:DistributionStrategy API,统一分布式语义,解耦分布式架构与模型训练框架 • 使用FP16通信,使用FP32做计算,带宽压力降低一倍 • IO优化 • 多线程样本并发读取,样本读取与计算PIPELINE,实现计算与IO的overlap 4 深度学习-深度学习模型训练 • 分布式模型推理框架:WeiServing 异构CPU集群 kubernetes/ol-submit batching/TensorRT/MPS/SSE/AVX/Neon • operator fusion • 针对特定场景重写耗时算子 • 重构tensorflow计算引擎 • batching • 批量调度请求到GPU,增大并发和吞吐量 4 深度学习-分布式模型推理 • 深度特征效果对比 • 文本Embedding特征,相比于文本标签,相关指标提升约3+% • 基于word2vec、bert等生成embedding0 码力 | 36 页 | 16.69 MB | 1 年前3QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒
索 l处理数万到数十万路,城市范围级别监控、门禁摄 像头数据 l10-100 Billion级别深度学习特征检索 - PB以上级别数据库存储 - 100PB级别抓拍图片存储 - 每秒万次并发检索请求 l大规模推广应用 l某种程度上说,城市内所有市民都是系统的用户 深度学习算法发展为平台系统赋能 首次超过人眼 2014 2015 98.52% 97.35% 97.45% 人眼 CPU manager Device plugin 1.9 volume-awared scheduling Go语言在高性能系统中的实践经验 • 为什么用Go - 比起C++,更易于实践各种并发模式 - 比起Java,更加简洁,更易于与C/C++交互 - 比起脚本语言,类型和内存安全,保证重构效率与产品质量 - 完善的配套工具,如go test, gofmt, go lint, race-detector0 码力 | 23 页 | 9.26 MB | 1 年前3从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱
数据读写需要加锁 � ⽀持多模型和模型多版本 困难 >15亿key/秒 近千台 只读版本 写版本 CPU型服务 Feature 2.2 Hotkey缓存优化 <10台 内存型服务 并发查询优化 数⼗台 ⽹络型服务 TB级模型实时上线 � 问题:TB模型实时多地传输和加载成本⾼ � ⽅案:⾼低频分别上线 � 更灵活的⽤法:模型多切⽚,按需上线 � Dssm � wdl0 码力 | 22 页 | 6.76 MB | 1 年前3动手学深度学习 v2.0
如,不少研究论文基于加州大学欧文分校(UCI)提供的若干个公开数据集,其中许多数据集只有几百至几 千张在非自然环境下以低分辨率拍摄的图像。这一状况在2010年前后兴起的大数据浪潮中得到改善。2009年, ImageNet数据集发布,并发起ImageNet挑战赛:要求研究人员从100万个样本中训练模型,以区分1000个不同 类别的对象。ImageNet数据集由斯坦福教授李飞飞小组的研究人员开发,利用谷歌图像搜索(Google Image 图12.7.5: 将NVLink网络分解为两个环。 考虑下面的思维试验:给定由n个计算节点(或GPU)组成的一个环,梯度可以从第一个节点发送到第二个节 点,在第二个结点将本地的梯度与传送的梯度相加并发送到第三个节点,依此类推。在n − 1步之后,可以在 最后访问的节点中找到聚合梯度。也就是说,聚合梯度的时间随节点数线性增长。但如果照此操作,算法是 相当低效的。归根结底,在任何时候都只有一个节0 码力 | 797 页 | 29.45 MB | 1 年前3【PyTorch深度学习-龙龙老师】-测试版202112
shape 为[2,35,8]的张量也更容易理解。 Stack 操作也需要满足张量堆叠合并的条件,它需要所有待合并的张量 shape 完全一致 才可合并。来看张量 shape 不一致时进行堆叠合并发生的错误,例如: In [7]: a = torch.randn([35,4]) b = torch.randn([35,8]) torch.stack([a,b], dim=-1)0 码力 | 439 页 | 29.91 MB | 1 年前3
共 5 条
- 1