【PyTorch深度学习-龙龙老师】-测试版202112
,难免出现理解偏差甚 至错缪之处,若能大方指出,作者将及时修正,不胜感激。 龙良曲 2021 年 10 月 19 日 预览版202112 声 明 得益于简洁优雅的设计理念,基于动态图的 PyTorch 框架在学术圈广受好评,绝大多数 最新算法是基于 PyTorch 实现的,众多的第三方 AI 框架应用,例如 mmdetection、mmaction2、 transformer、speechbrain 深度学习 图 1.1 人工智能、机器学习、神经网络和深度学习 1.1.2 机器学习 机器学习可以分为有监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning,简称 RL),如图 1.2 所示。 机器学习 有监督学习 无监督学习 强化学习 图 1.2 机器学习的分类 输出逻辑 特征提取网络 (浅层) 输出子网络 底层特征提取 网络 中层特征提取 网络 高层特征提取 网络 输出子网络 基于规则的系统 传统机器学习 浅层神经网络 深度学习 图 1.3 深度学习与其它算法比较 1.2 神经网络发展简史 本书将神经网络的发展历程大致分为浅层神经网络阶段和深度学习两个阶段,以 2006 年为大致分割点。2006 年以前,深度学习0 码力 | 439 页 | 29.91 MB | 1 年前3动手学深度学习 v2.0
前向传播、反向传播和计算图 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 4.7.1 前向传播 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 4.7.2 前向传播计算图 . . . 要同时了解(1)以特定方式提出问题的动机;(2)给定建模方法的数学; (3)将模型拟合数据的优化算法; (4) 能够有效训练模型、克服数值计算缺陷并最大限度地利用现有硬件的工程方法。同时教授表述问题所需的批 判性思维技能、解决问题所需的数学知识,以及实现这些解决方案所需的软件工具,这是一个巨大的挑战。 在我们开始写这本书的时候,没有资源能够同时满足一些条件:(1)是最新的;(2)涵盖了现代机器学习的 所有领 另一个是更实际的示例,我们使用深度学习框架的高级API编写简洁的代码。一旦我们教了您一些组件是如 何工作的,我们就可以在随后的教程中使用高级API了。 内容和结构 全书大致可分为三个部分,在 图1 中用不同的颜色呈现: 目录 3 图1: 全书结构 • 第一部分包括基础知识和预备知识。1节 提供深度学习的入门课程。然后在 2节 中,我们将快速介绍实 践深度学习所需的前提条件,例如如何存储和处理数据,以及如何应用基于线性代数、微积分和概率基0 码力 | 797 页 | 29.45 MB | 1 年前3机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入
完全不用重复和卷积,因而这些模型在质量上更优,同时更易于并行化,并 且需要的训练时间明显更少。 ✓ Transformer出现以后,迅速取代了RNN系列变种,跻身主流模型架构基 础。(RNN缺陷正在于流水线式的顺序计算) 图:Transformer模型架构 33 首先通过词嵌入(Word Embedding)将字、词、 句进行区分,然后基于特征评分、序列标注、 分类模型等提取内容特征计算相关文本单元权 重其次洗择相应的文本单元子集组成摘要候洗 任务)、双向Transformer+Mask的自编码系列(例如BERT, 偏好自然语言理解)、Encoder-decoder架构(例如T5,使用双向/单向attention,偏好条件文本生成) 图:Transformer典型技术场景下的原理介绍如下所述 Transformer 34 GPT-1:借助预训练,进行无监督训练和有监督微调 ◼ GPT-1模型基于Transformer解除了顺 模型的生成性预训练,然后对每个特定任务 进行区分性微调,可以实现这些任务上的巨大收益。和之前方法不同,GPT在微调期间使用任务感知输入转换,以实现有效的传输, 同时对模型架构的更改最小。 图:GPT-1模型的核心手段是预训练(Pre-training) 无监督预训练 (Unsupervised pre-training) 不需要标注数据集,即大规 模自学阶段,在保证AI算力 充足的条件下,根据0 码力 | 44 页 | 2.36 MB | 1 年前3机器学习课程-温州大学-03深度学习-PyTorch入门
4、numpy中没有x.type()的用法,只能使用 type(x)。 1、产生的数组类型为torch.Tensor; 2 、会将tensor放入GPU中进行加速运算( 如果有GPU); 3 、 导 入 方 式 为 import torch , 后 续 通 过 torch.tensor([1,2])或torch.Tensor([1,2])建立数组; 4、Tensor中查看数组类型既可以使用type(x),也可以使 PyTorch 1.x的自动微分机制 构 建 计 算 图 创 建 设 置 张 量 (tensor) 设 置 t e n s o r的 requires_ g r a d 的 属 性 为 True 定 义 函 数 ( L) 使 用 函 数 的 求 导 方 法 (L. b a c kwa rd( ) ) 对 标 量 求 导 对 非 标 量 求 导 直 接 使 用 L.backward()函 () 使 用 t e n s o r.grad.zero_() 清 除 张 量 梯 度 如 果 要 保 留 计 算 图 , 可 通 过 设 置 b a c kw a r d( ) 中 参 数 retain_graph=True 释 放 计 算 图 具体实例可参考书中2.7小节内容 2. Autograd自动求导 18 18 PyTorch 1.x的Tensor不参与求导的几种方式0 码力 | 40 页 | 1.64 MB | 1 年前3机器学习课程-温州大学-01深度学习-引言
我自己以为我做的事情 实际上我做的事情 10 通过这张图可以看出, 各种不同算法在输入的 数据量达到一定级数后 ,都有相近的高准确度 。于是诞生了机器学习 界的名言: 成功的机器学习应 用不是拥有最好的 算法,而是拥有最 多的数据! 数据决定一切 数据大小 准 确 率 11 深度学习-CV(计算机视觉方向) 图像获取 提取二维图像 、三维图组、 图像序列或相 关的物理数据 ,如声波、电 磁波或核磁 磁波或核磁 共振的深度、 吸收度或反射 度 预处理 对图像做一 种或一些预 处理,使图 像满足后继 处理的要 求 ,如:二次 取样保证图 像坐标的正 确,平滑、 去噪等 特征提取 从图像中提取 各种复杂度的 特征,如:线 ,边缘提取和 脊侦测,边角 检测、斑点检 测等局部化的 特征点检测 检测/分割 对图像进行分割 ,提取有价值的 内容,用于后继 处理, 如:筛 选特征点,分割 交通 自动驾驶汽车需要计算机视觉。特斯拉 (Tesla)、宝马(BMW)、沃尔沃(Volvo)和奥迪 (Audi)等汽车制造商Y已经通过摄像头、激光 雷达、雷达和超声波传感器从环境中获取图 像,研发自动驾驶汽车来探测目标、车道标 志和交通信号,从而安全驾驶。 安防 中国在使用人脸识别技术方面无疑处于领先地 位,这项技术被广泛应用于警察工作、支付识 别、机场安检,甚至在北京天坛公园分发厕0 码力 | 80 页 | 5.38 MB | 1 年前3机器学习课程-温州大学-01机器学习-引言
向量、矩阵、行列式、秩、线性方程组、特征值和特征向量…… 概率论与数理统计 随机事件和概率、概率的基本性质和公式、常见分布、期望、协 方差…… 30 高等数学-导数 导数(Derivative),也叫导函数值。又名微商, 是微积分中的重要基础概念。当函数? = ?(?) 的自变量?在一点?0上产生一个增量??时,函 数输出值的增量??与自变量增量??的比值在 ??趋于0时的极限?如果存在,?即为在 ?d? (3) ( ? ?)′ = ??′−??′ ?2 (? ≠ 0) d( ? ?) = ?d?−?d? ?2 四则运算法则 设函数? = ?(?),? = ?(?)在点?可导,则: 高等数学-四则运算法则 36 设函数?(?)在点?0处的某邻域内具有? + 1阶导数,则对该邻域内异于?0的 任意点?,在?0与?之间至少存在一个?,使得: ?(?) = ?(?0) 阶泰勒公式: ?(?) = ?(0) + ?′(0)? + 1 2! ?″(0)?2 + ⋯ + ?(?)(0) ?! ?? + ??(?)…… 设函数? = ?(?),? = ?(?)在点?可导,则: 高等数学-泰勒公式 37 常用函数在?? = ?处的泰勒公式 : 1) e? = 1 + ? + 1 2! ?2 + ⋯ + 1 ?! ?? + ?(??) 2) ln(1 +0 码力 | 78 页 | 3.69 MB | 1 年前3机器学习课程-温州大学-08机器学习-集成学习
(6)使用上述的采样的样本,学习一个新的弱学习器; (7)不断地重复(1)~(6)步骤直到达到规定的迭代次数或者收敛为止。 40 4.LightGBM 样本序号 样本的特征取值 样本的一阶导 样本的二阶导 ? 1 2 3 4 5 6 7 8 ?? 0.1 2.1 2.5 3.0 3.0 4.0 4.5 5.0 ?? 0.01 0.03 0.06 0.05 0.04 0.7 0.6 0.07 03*3 0.05*3+0.7 0.6 ℎ? 0.04*3 0.02*3+0.02 0.03 bin1 bin2 bin3 bin序号 bin样本的之和 bin内所有样本的一阶导之和 bin内所有样本的二阶导之和 可能的候选点分裂点个数 等于样本取值个数减一 排序完了之后,我们就选出a * data_num个梯度大的,然后从剩下的那些样本里面选出b*data_num个梯度小的: 这里是 03 0.06 0.05 0.04 0.7 0.6 0.07 ℎ? 0.2 0.04 0.05 0.02 0.08 0.02 0.03 0.03 样本序号 样本的特征取值 样本的一阶导 样本的二阶导 ? 1 2 3 4 5 6 7 8 ?? 0.1 2.1 2.5 3.0 3.0 4.0 4.5 5.0 ?? 0.01 0.03 0.06 0.05 0.04 0.7 0.6 0.070 码力 | 50 页 | 2.03 MB | 1 年前3机器学习课程-温州大学-10机器学习-聚类
记?个簇中心为?1, ?2, . . . , ??,每个簇的样本数目为?1, ?2,..., ?? 使用平方误差作为目标函数: 对关于从?1, ?2, ⋯ ??的函数求偏导,这里的求偏 导是对第?个簇心??求的偏导。故而其驻点为: ?(?1, ?2, ⋯ ??) = 1 2 ?=1 ? ?=1 ?? ( ?? − ??)2 ?? ??? = − σ?=1 ?? ( 向作业区域,在作业区 域拖网作业,一个航次 结束,全速驶向渔港, 我 们 设 计 了 一 种 基 于 DBSCAN和K-means的 混合FindPort算法 典型的单拖船一年的轨迹图 FindPort算法计算的渔港图 密度聚类应用 通过单拖船轨迹推算港口范围 38 层次聚类 层次聚类 ⚫ 层次聚类假设簇之间存在层次结构,将样本聚到 层次化的簇中。 ⚫ 层次聚类又有聚合聚类(自下而上)、分裂聚类0 码力 | 48 页 | 2.59 MB | 1 年前3机器学习课程-温州大学-02机器学习-回归
? 10 线性回归-最小二乘法(LSM) 需要用到以下几个矩阵的求导法则: ) ??(? ?? = 1 2 ? ?? ?? − ? T ?? − ? 为最小化,接下来对?(?)偏导, 由于中间两项互为转置: ) ??(? ?? = 1 2 ? ?? (?T?T?? − 2?T?T? + ?T?) = ?T?? − ?T? 令 ?? ? ?? = 0, 则有? ,保留所有的特征,但是减少参数的大小(magnitude) ,它可以改善或者减少过拟合问题。 4.集成学习方法 集成学习是把多个模型集成在一起,来降低单一模型的过拟合风险。 25 通过这张图可以看出, 各种不同算法在输入的 数据量达到一定级数后 ,都有相近的高准确度 。于是诞生了机器学习 界的名言: 成功的机器学习应 用不是拥有最好的 算法,而是拥有最 多的数据! 数据决定一切 数据大小 则化的比例。 正则化 (弹性网络) 28 L2正则化可以防止过拟合 正则化 L1正则化可以产生稀疏模型 图上面中的蓝色轮廓线是没有正则化损失函数的等高线,中心的蓝色点为最优解,左图、右图分别为L1、L2正则化给出的限制。 可以看到在正则化的限制之下, ??正则化给出的最优解w*是使解更加靠近原点,也就是说??正则化能降低参数范数的总和。 ??正则化给出的最优解w*是使解更加靠近某些轴0 码力 | 33 页 | 1.50 MB | 1 年前3全连接神经网络实战. pytorch 版
test_loss :>8 f }␣\n” ) 测试集有 10000 个数据,with torch.no_grad() 的意义是不再构建计算图。因为 pytorch 在运 算时会首先构建计算图,用于后面的反向传播算法等操作,我们测试正确率时不需要构建计算图。 pred.argmax(1) 表示向量中最大的一个数的索引,即为我们预测的当前数据类别。然后,.sum 函 数得到一个 batch 里的所有预测正确的次数。 () , ’ epoch ’ : t } torch . save ( state , path ) print ( ”Done ! ” ) #把 最 后 一 次 训 练 得 到 的 模 型 导 入 到 模 型 中 path = ’ ./ model ’ + s t r (9) +’ . pth ’ checkpoint = torch . load ( path ) model2 =0 码力 | 29 页 | 1.40 MB | 1 年前3
共 50 条
- 1
- 2
- 3
- 4
- 5