性能 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

【PyTorch深度学习-龙龙老师】-测试版202112

和海量数据让大规模神经网络的训练成为可能。 2006 年，Geoffrey Hinton 首次提出深度学习的概念。2012 年，8 层的深层神经网络 AlexNet 发布，并在图片识别竞赛中取得了巨大的性能提升，此后几十层、数百层、甚至上千层的神经网络模型相继提出，展现出深层神经网络强大的学习能力。业界一般将利用深层神经网络实现的算法称作深度学习，本质上神经网络和深度学习可认为是相同的。现在征方法的优劣性非常的关键，同时也比较困难。神经网络的出现，使得人为设计特征这一部分工作可以让机器自动完成学习，不需要人类干预。但是浅层的神经网络的特征提取能力较为有限，而深层的神经网络擅长提取高层、抽象的特征，因此具有更好的性能表现。针对特定任务的检测逻辑输出逻辑人为设计的特征检测方法输出逻辑特征提取网络 (浅层) 输出子网络底层特征提取网络中层特征提取网络高层特征提取代表的传统机器学习算法兴起而逐渐进入低谷，称为人工智能的第二次寒冬。支持向量机拥有严格的理论基础，训练需要的样本数量较少，同时也具有良好的泛化能力，相比之下，神经网络理论基础欠缺，可解释性差，很难训练深层网络，性能也相对一般。图 1.8 绘制了 1943 年~2006 年之间的重大时间节点。 ① 图片来自 https://slideplayer.com/slide/12771753/ ② 图片来自

0 码力 | 439 页 | 29.91 MB | 1 年前
3
动手学深度学习 v2.0

策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497 12 计算性能 503 12.1 编译器和解释器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 帮助读者快速了解大多数现代深度学习应用背后的基本工具。 • 第三部分讨论可伸缩性、效率和应用程序。首先，在 11节中，我们讨论了用于训练深度学习模型的几种常用优化算法。下一章 12节将探讨影响深度学习代码计算性能的几个关键因素。在 13节中，我们展示了深度学习在计算机视觉中的主要应用。在 14节和 15节中，我们展示了如何预训练语言表示模型并将其应用于自然语言处理任务。 4 目录代码案的任务，这其中的计算也超出了人类意识理解范畴。机器学习（machine learning，ML）是一类强大的可以从经验中学习的技术。通常采用观测数据或与环境交互的形式，机器学习算法会积累更多的经验，其性能 17 也会逐步提高。相反，对于刚刚所说的电子商务平台，如果它一直执行相同的业务逻辑，无论积累多少经验，都不会自动提高，除非开发人员认识到问题并更新软件。本书将带读者开启机器学习之旅，并特别关注深度

0 码力 | 797 页 | 29.45 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

模型的异构集群迁移，支持集群扩缩容 • 性能优化 • 通信优化：数据请求(PULL&PUSH)聚合，同模型多矩阵并发，锁粒度优化，性能提升5-10倍 • 缓存优化：使用堆外内存与LRU过期机制，解决GC引起的性能损耗，性能提升3-5倍 • 分区优化：支持多种分区策略（RANGE/HASH/MOD），解决数据倾斜导致的流量热点瓶颈问题，性能提升2-5倍 • 存储优化：自定义存储方式(B 待部署模型与线上模型进行指标对比，评估是否满足上线条件 • 一键部署 • 基于K8S的deployment模式，一键端口分配与模型服务部署 • 基于ZK的服务发现，一键进行流量灰度与发布 • 性能优化 • 通信优化：特征请求与模型计算单元化，在线样本格式压缩 • 计算优化：基于SSE／AVX 指令优化 3 在线机器学习-模型服务部署 • 模型更新频次效果对比 • FM：数据越新，效果越好数据处理异构GPU集群 CNN 业务应用模型服务框架排序模型服务多媒体分析服务自然语言分析服务集群调度层核心架构层算法模型层 4 深度学习-分布式模型推理 • 推理性能优化 • 减少计算量： operator fusion/XLA/TVM/prune/float16/quantization • 加快计算速度： batching/TensorRT/MPS/SSE/AVX/Neon

0 码力 | 36 页 | 16.69 MB | 1 年前
3
机器学习课程-温州大学-特征工程

中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 文献解读定义目的作用是把原始数据转变为模型的训练数据的过程获取更好的训练数据特征，使得机器学习模型逼近这个上限 ➢ 使模型的性能得到提升 ➢ 在机器学习中占有非常重要的作用构成 ➢ 特征构建 ➢ 特征提取 ➢ 特征选择特征工程相关概念 1. 相关概念 5 通过这张图可以看出，各种不同算法在输入的数据量达到一特征选择 26 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 模型性能 • 保留尽可能多的特征，模型的性能会提升 • 但同时模型就变复杂，计算复杂度也同样提升计算复杂度 • 剔除尽可能多的特征，模型的性能会有所下降 • 但模型就变简单，也就降低计算复杂度 VS 4. 特征选择 27 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J] 过滤式(Filter): 先对数据集进行特征选择，其过程与后续学习器无关，即设计一些统计量来过滤特征，并不考虑后续学习器问题包裹式(Wrapper): 就是一个分类器，它是将后续的学习器的性能作为特征子集的评价标准嵌入式(Embedding): 是学习器自主选择特征 4. 特征选择特征选择的三种方法 28 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究

0 码力 | 38 页 | 1.28 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

2017年，在Ashish Vaswani et.al 的论文《Attention Is All You Need》中，考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积神经网络，性能最好的模型被证明还是通过注意力机制（attention mechanism）连接编码器和解码器，因而《Attention Is All You Need》中提出了一种新的简单架构——Tra Learners》论文 • 预训练加微调范式中，可能在这种范式下实现的泛化可能很差，因为该模型过于特定于训练分布，并且在其之外无法很好地泛化。 • 微调模型在特定基准上的性能，即使名义上是人类水平，也可能夸大基础任务的实际性能。存在的问题03：因为人类学习大多数语言任务不需要大型受监督的数据集，当前NLP技术在概念上具有一定的局限性。存在的问题01：从实用的角度来看，每一项新任务都需实现强大的性能，通常需要对特定于该任务的数千到数十万个示例的数据集进行微调。图：GPT-2尚未解决诸多瓶颈问题存在的问题02： GPT的发展 38 GPT-3（2020.5）取得突破性进展，任务结果难以与人类作品区分开来 ◼ GPT-3对GPT-2追求无监督与零次学习的特征进行了改进 ◼ GPT-3利用了过滤前45TB的压缩文本，在诸多NLP数据集中实现了强大性能 ✓ GP

0 码力 | 44 页 | 2.36 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

⼤规模推荐模型深度学习系统基本解决维度分布式系统⼤规模模型优化算法 1. ⾼性能 2. 效果⽆损的优化 � Feature 1（基本特点） � Feature 2（数据的时空特点） � Feature3（机器学习的特点）⼤规模推荐模型深度学习系统基本解决维度分布式系统⼤规模模型优化算法 1. ⾼性能 2. 效果⽆损的优化 � Feature 1（基本特点） � Feature 2.1:短时间内只有部分item和user 被命中，只有部分参数被⽤到参数按需获取/更新 Storage 异步训练流⽔线和多级存储：提升性能，降低内存成本 � 问题： � Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数就绪，Parameter Server难以利⽤速度慢的存储介质样本读取样本解析参数拉 Feature 2.1: 短时间内只有部分参数被⽤到 Feature 2.2 Hotkey变化慢⼤规模推荐模型深度学习系统基本解决维度分布式系统⼤规模模型优化算法 1. ⾼性能 2. 效果⽆损的优化 � Feature 1（基本特点） � Feature 2（数据的时空特点） � Feature3（机器学习的特点）通讯量可以变⼩来提升训练速度么？---参数，梯度压缩

0 码力 | 22 页 | 6.76 MB | 1 年前
3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒

深度学习算法在产品应用中的挑战 • 深度学习算法也需要“深度”学习业务需求 - 处理特殊输入，如模糊、黑白照片 - 适配具有不同特征的数据源 - 在严肃应用中，客户追求100%准确率，算法性能提升永无止境 • 深度学习模型需要在准确率和速度上做均衡 - 使用更加精巧的模型和Operator设计 - 使用模型压缩算法，在基本保障准确率的情况下大幅提升速度 - 利用最新的硬件特性，如GPU scheduling Go语言在高性能系统中的实践经验 • 为什么用Go - 比起C++，更易于实践各种并发模式 - 比起Java，更加简洁，更易于与C/C++交互 - 比起脚本语言，类型和内存安全，保证重构效率与产品质量 - 完善的配套工具，如go test, gofmt, go lint, race-detector Go语言在高性能系统中的实践经验 • Go在开发高性能应用上也有一些不足，对比C++： - 无法直接控制操作系统线程，CUDA 调用需要特殊处理 - 部分标准库实现依赖reflect，性能较差 - GC的带来的开销，如在Go Heap上构建百万以上级别的对象缓存，需要仔细优化百倍慢于等价的C实现！回顾 • 智慧城市中，在智能安防领域机器视觉有着爆发式应用 • 我们使用基于深度学习的机器视觉技术，构建了超大规模的自我演化的分布式智能系统

0 码力 | 23 页 | 9.26 MB | 1 年前
3
机器学习课程-温州大学-07机器学习-决策树

凹陷硬滑否训练集验证集在已经生成的决策树上进行剪枝，从而得到简化版的剪枝决策树。后剪枝决策树通常比预剪枝决策树保留了更多的分支。一般情况下，后剪枝的欠拟合风险更小，泛化性能往往优于预剪枝决策树。 24 C4.5的剪枝后剪枝基于表生成未剪枝的决策树平坦纹理色泽好瓜坏瓜根蒂色泽脐部坏瓜坏瓜坏瓜坏瓜好瓜好瓜好瓜替这课子树是否有益。如果剪枝后与剪枝前相比其错误率是保持或者下降，则这棵子树就可以被替换掉。 C4.5 通过训练数据集上的错误分类数量来估算未知样本上的错误率。后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树。 25 C4.5的剪枝后剪枝后剪枝的决策树剪枝方法在已经生成的决策树上进行剪枝，从而得到简化版的剪枝决策树。 C4.5 采用的悲观剪枝方法，用递归的方式从低往上针替这课子树是否有益。如果剪枝后与剪枝前相比其错误率是保持或者下降，则这棵子树就可以被替换掉。 C4.5 通过训练数据集上的错误分类数量来估算未知样本上的错误率。后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树。平坦色泽好瓜坏瓜根蒂脐部坏瓜坏瓜好瓜好瓜好瓜凹陷硬挺蜷曲稍蜷稍凹浅白青绿乌黑 ① ⑥ ⑤ ④ ③ ②

0 码力 | 39 页 | 1.84 MB | 1 年前
3
机器学习课程-温州大学-机器学习项目流程

04 数据建模 4 机器学习的一般步骤 5 机器学习的一般步骤数据搜集数据清洗特征工程数据建模 6 机器学习的一般步骤数据搜集数据清洗特征工程数据建模 • 基于性能指标比较几种机器学习模型 • 对最佳模型执行超参数调整 • 在测试集上评估最佳模型 • 解释模型结果 • 得出结论 • 数据清理和格式化 • 探索性数据分析(EDA) • 特征工程特征工程在数据挖掘中有举足轻重的位置数据领域一致认为：数据和特征决定了机器学习的上限，而模型和算法只能逼近这个上限而已。特征工程重要性：特征越好，灵活性越强；特征越好，模型越简单；特征越好，性能越出色；好特征即使使用一般的模型，也能得到很好的效果！ 3.特征工程 21 特征选择主要方法去除变化小的特征去除共线特征去除重复特征主成分分析（PCA） …… 特征选择主要有两个功能：不考虑时间因素，通常打乱数据 3.特征工程 23 4.数据建模 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 24 数据建模 • 基于性能指标比较几种机器学习模型 • 对最佳模型执行超参数调整 • 在测试集上评估最佳模型 • 解释模型结果 • 得出结论 25 参考文献 1. https://github.com/Will

0 码力 | 26 页 | 1.53 MB | 1 年前
3
阿里云上深度学习建模实践-程孟力

Swin Retrieval Image Generation Video Caption EasyVision: 图像视频算法库 Bert TextInput Optim izer 性能优越:  分布式存储  分布式查询功能完备:  GSL/负采样  主流图算法  异构图 (user/item/attribute)  动态图标准化: Standard Libraries 千亿特征 3. 工程优化 RingAllReduce + 层级级联 EasyVision 多机多卡性能对比工程优化: 数据并行  M6模型  Transformer模型: RapidFormer  人脸分类模型: 超大softmax  3D卷积模型 M6模型 RapidFormer性能工程优化: 模型并行(Whale)  FP16 / Int8  模型剪枝  Op融合(Fusion

0 码力 | 40 页 | 8.51 MB | 1 年前
3

共 29 条前往

页

分类

语言

格式