思维导图 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

【PyTorch深度学习-龙龙老师】-测试版202112

，难免出现理解偏差甚至错缪之处，若能大方指出，作者将及时修正，不胜感激。龙良曲 2021 年 10 月 19 日预览版202112 声明得益于简洁优雅的设计理念，基于动态图的 PyTorch 框架在学术圈广受好评，绝大多数最新算法是基于 PyTorch 实现的，众多的第三方 AI 框架应用，例如 mmdetection、mmaction2、 transformer、speechbrain 深度学习图 1.1 人工智能、机器学习、神经网络和深度学习 1.1.2 机器学习机器学习可以分为有监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning，简称 RL)，如图 1.2 所示。机器学习有监督学习无监督学习强化学习图 1.2 机器学习的分类输出逻辑特征提取网络 (浅层) 输出子网络底层特征提取网络中层特征提取网络高层特征提取网络输出子网络基于规则的系统传统机器学习浅层神经网络深度学习图 1.3 深度学习与其它算法比较 1.2 神经网络发展简史本书将神经网络的发展历程大致分为浅层神经网络阶段和深度学习两个阶段，以 2006 年为大致分割点。2006 年以前，深度学习

0 码力 | 439 页 | 29.91 MB | 1 年前
3
动手学深度学习 v2.0

前向传播、反向传播和计算图 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 4.7.1 前向传播 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 4.7.2 前向传播计算图 . . . 要同时了解（1）以特定方式提出问题的动机；（2）给定建模方法的数学；（3）将模型拟合数据的优化算法；（4）能够有效训练模型、克服数值计算缺陷并最大限度地利用现有硬件的工程方法。同时教授表述问题所需的批判性思维技能、解决问题所需的数学知识，以及实现这些解决方案所需的软件工具，这是一个巨大的挑战。在我们开始写这本书的时候，没有资源能够同时满足一些条件：（1）是最新的；（2）涵盖了现代机器学习的所有领另一个是更实际的示例，我们使用深度学习框架的高级API编写简洁的代码。一旦我们教了您一些组件是如何工作的，我们就可以在随后的教程中使用高级API了。内容和结构全书大致可分为三个部分，在图1 中用不同的颜色呈现：目录 3 图1: 全书结构 • 第一部分包括基础知识和预备知识。1节提供深度学习的入门课程。然后在 2节中，我们将快速介绍实践深度学习所需的前提条件，例如如何存储和处理数据，以及如何应用基于线性代数、微积分和概率基

0 码力 | 797 页 | 29.45 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

完全不用重复和卷积，因而这些模型在质量上更优，同时更易于并行化，并且需要的训练时间明显更少。 ✓ Transformer出现以后，迅速取代了RNN系列变种，跻身主流模型架构基础。（RNN缺陷正在于流水线式的顺序计算）图：Transformer模型架构 33 首先通过词嵌入(Word Embedding)将字、词、句进行区分，然后基于特征评分、序列标注、分类模型等提取内容特征计算相关文本单元权重其次洗择相应的文本单元子集组成摘要候洗任务）、双向Transformer+Mask的自编码系列（例如BERT，偏好自然语言理解）、Encoder-decoder架构（例如T5，使用双向/单向attention，偏好条件文本生成）图：Transformer典型技术场景下的原理介绍如下所述 Transformer 34 GPT-1：借助预训练，进行无监督训练和有监督微调 ◼ GPT-1模型基于Transformer解除了顺模型的生成性预训练，然后对每个特定任务进行区分性微调，可以实现这些任务上的巨大收益。和之前方法不同，GPT在微调期间使用任务感知输入转换，以实现有效的传输，同时对模型架构的更改最小。图：GPT-1模型的核心手段是预训练（Pre-training）无监督预训练（Unsupervised pre-training）不需要标注数据集，即大规模自学阶段，在保证AI算力充足的条件下，根据

0 码力 | 44 页 | 2.36 MB | 1 年前
3
机器学习课程-温州大学-03深度学习-PyTorch入门

4、numpy中没有x.type()的用法，只能使用 type(x)。 1、产生的数组类型为torch.Tensor； 2 、会将tensor放入GPU中进行加速运算（如果有GPU）； 3 、导入方式为 import torch ，后续通过 torch.tensor([1,2])或torch.Tensor([1,2])建立数组； 4、Tensor中查看数组类型既可以使用type(x)，也可以使 PyTorch 1.x的自动微分机制构建计算图创建设置张量 (tensor) 设置 t e n s o r的 requires_ g r a d 的属性为 True 定义函数 ( L) 使用函数的求导方法（L. b a c kwa rd( ) ）对标量求导对非标量求导直接使用 L.backward()函（）使用 t e n s o r.grad.zero_() 清除张量梯度如果要保留计算图，可通过设置 b a c kw a r d（）中参数 retain_graph=True 释放计算图具体实例可参考书中2.7小节内容 2. Autograd自动求导 18 18  PyTorch 1.x的Tensor不参与求导的几种方式

0 码力 | 40 页 | 1.64 MB | 1 年前
3
机器学习课程-温州大学-01深度学习-引言

我自己以为我做的事情实际上我做的事情 10 通过这张图可以看出，各种不同算法在输入的数据量达到一定级数后，都有相近的高准确度。于是诞生了机器学习界的名言：成功的机器学习应用不是拥有最好的算法，而是拥有最多的数据！数据决定一切数据大小准确率 11 深度学习-CV（计算机视觉方向）图像获取提取二维图像、三维图组、图像序列或相关的物理数据，如声波、电磁波或核磁磁波或核磁共振的深度、吸收度或反射度预处理对图像做一种或一些预处理，使图像满足后继处理的要求，如：二次取样保证图像坐标的正确，平滑、去噪等特征提取从图像中提取各种复杂度的特征，如：线，边缘提取和脊侦测，边角检测、斑点检测等局部化的特征点检测检测/分割对图像进行分割，提取有价值的内容，用于后继处理，如：筛选特征点，分割交通自动驾驶汽车需要计算机视觉。特斯拉 (Tesla)、宝马(BMW)、沃尔沃(Volvo)和奥迪 (Audi)等汽车制造商Y已经通过摄像头、激光雷达、雷达和超声波传感器从环境中获取图像，研发自动驾驶汽车来探测目标、车道标志和交通信号，从而安全驾驶。安防中国在使用人脸识别技术方面无疑处于领先地位，这项技术被广泛应用于警察工作、支付识别、机场安检，甚至在北京天坛公园分发厕

0 码力 | 80 页 | 5.38 MB | 1 年前
3
机器学习课程-温州大学-01机器学习-引言

向量、矩阵、行列式、秩、线性方程组、特征值和特征向量…… 概率论与数理统计随机事件和概率、概率的基本性质和公式、常见分布、期望、协方差…… 30 高等数学-导数导数(Derivative)，也叫导函数值。又名微商，是微积分中的重要基础概念。当函数? = ?(?) 的自变量?在一点?0上产生一个增量??时，函数输出值的增量??与自变量增量??的比值在 ??趋于0时的极限?如果存在，?即为在 ?d? (3) ( ? ?)′ = ??′−??′ ?2 (? ≠ 0) d( ? ?) = ?d?−?d? ?2 四则运算法则设函数? = ?(?)，? = ?(?)在点?可导，则：高等数学-四则运算法则 36 设函数?(?)在点?0处的某邻域内具有? + 1阶导数，则对该邻域内异于?0的任意点?，在?0与?之间至少存在一个?，使得： ?(?) = ?(?0) 阶泰勒公式： ?(?) = ?(0) + ?′(0)? + 1 2! ?″(0)?2 + ⋯ + ?(?)(0) ?! ?? + ??(?)…… 设函数? = ?(?)，? = ?(?)在点?可导，则：高等数学-泰勒公式 37 常用函数在?? = ?处的泰勒公式： 1) e? = 1 + ? + 1 2! ?2 + ⋯ + 1 ?! ?? + ?(??) 2) ln(1 +

0 码力 | 78 页 | 3.69 MB | 1 年前
3
机器学习课程-温州大学-08机器学习-集成学习

（6）使用上述的采样的样本，学习一个新的弱学习器；（7）不断地重复（1）~（6）步骤直到达到规定的迭代次数或者收敛为止。 40 4.LightGBM 样本序号样本的特征取值样本的一阶导样本的二阶导 ? 1 2 3 4 5 6 7 8 ?? 0.1 2.1 2.5 3.0 3.0 4.0 4.5 5.0 ?? 0.01 0.03 0.06 0.05 0.04 0.7 0.6 0.07 03*3 0.05*3+0.7 0.6 ℎ? 0.04*3 0.02*3+0.02 0.03 bin1 bin2 bin3 bin序号 bin样本的之和 bin内所有样本的一阶导之和 bin内所有样本的二阶导之和可能的候选点分裂点个数等于样本取值个数减一排序完了之后，我们就选出a * data_num个梯度大的，然后从剩下的那些样本里面选出b*data_num个梯度小的：这里是 03 0.06 0.05 0.04 0.7 0.6 0.07 ℎ? 0.2 0.04 0.05 0.02 0.08 0.02 0.03 0.03 样本序号样本的特征取值样本的一阶导样本的二阶导 ? 1 2 3 4 5 6 7 8 ?? 0.1 2.1 2.5 3.0 3.0 4.0 4.5 5.0 ?? 0.01 0.03 0.06 0.05 0.04 0.7 0.6 0.07

0 码力 | 50 页 | 2.03 MB | 1 年前
3
机器学习课程-温州大学-10机器学习-聚类

记?个簇中心为?1, ?2, . . . , ??，每个簇的样本数目为?1, ?2,..., ?? 使用平方误差作为目标函数: 对关于从?1, ?2, ⋯ ??的函数求偏导，这里的求偏导是对第?个簇心??求的偏导。故而其驻点为: ?(?1, ?2, ⋯ ??) = 1 2 ෍ ?=1 ? ෍ ?=1 ?? ( ?? − ??)2 ?? ??? = − σ?=1 ?? ( 向作业区域，在作业区域拖网作业，一个航次结束，全速驶向渔港，我们设计了一种基于 DBSCAN和K-means的混合FindPort算法典型的单拖船一年的轨迹图 FindPort算法计算的渔港图密度聚类应用通过单拖船轨迹推算港口范围 38 层次聚类层次聚类 ⚫ 层次聚类假设簇之间存在层次结构，将样本聚到层次化的簇中。 ⚫ 层次聚类又有聚合聚类（自下而上）、分裂聚类

0 码力 | 48 页 | 2.59 MB | 1 年前
3
机器学习课程-温州大学-02机器学习-回归

? 10 线性回归-最小二乘法(LSM) 需要用到以下几个矩阵的求导法则: ) ??(? ?? = 1 2 ? ?? ?? − ? T ?? − ? 为最小化，接下来对?(?)偏导，由于中间两项互为转置: ) ??(? ?? = 1 2 ? ?? (?T?T?? − 2?T?T? + ?T?） = ?T?? − ?T? 令 ?? ? ?? = 0, 则有? ，保留所有的特征，但是减少参数的大小（magnitude），它可以改善或者减少过拟合问题。 4.集成学习方法集成学习是把多个模型集成在一起，来降低单一模型的过拟合风险。 25 通过这张图可以看出，各种不同算法在输入的数据量达到一定级数后，都有相近的高准确度。于是诞生了机器学习界的名言：成功的机器学习应用不是拥有最好的算法，而是拥有最多的数据！数据决定一切数据大小则化的比例。正则化（弹性网络） 28 L2正则化可以防止过拟合正则化 L1正则化可以产生稀疏模型图上面中的蓝色轮廓线是没有正则化损失函数的等高线，中心的蓝色点为最优解，左图、右图分别为L1、L2正则化给出的限制。可以看到在正则化的限制之下, ??正则化给出的最优解w*是使解更加靠近原点,也就是说??正则化能降低参数范数的总和。 ??正则化给出的最优解w*是使解更加靠近某些轴

0 码力 | 33 页 | 1.50 MB | 1 年前
3
全连接神经网络实战. pytorch 版

test_loss :>8 f }␣\n” ) 测试集有 10000 个数据，with torch.no_grad() 的意义是不再构建计算图。因为 pytorch 在运算时会首先构建计算图，用于后面的反向传播算法等操作，我们测试正确率时不需要构建计算图。 pred.argmax(1) 表示向量中最大的一个数的索引，即为我们预测的当前数据类别。然后，.sum 函数得到一个 batch 里的所有预测正确的次数。 () , ’ epoch ’ : t } torch . save ( state , path ) print ( ”Done ! ” ) #把最后一次训练得到的模型导入到模型中 path = ’ ./ model ’ + s t r (9) +’ . pth ’ checkpoint = torch . load ( path ) model2 =

0 码力 | 29 页 | 1.40 MB | 1 年前
3

共 50 条前往

页

分类

语言

格式