动手学深度学习 v2.0
训练模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 9.6 编码器‐解码器架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 9.6.1 编码器 . . . . . . . . . . . . . . . . . . 364 9.6.2 解码器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 9.6.3 合并编码器和解码器 . . . . . . . . . . . . . . . . . . . . . . . 编码器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367 9.7.2 解码器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 9.7.3 损失函数0 码力 | 797 页 | 29.45 MB | 1 年前3Qcon北京2018-《文本智能处理的深度学习技术》-陈运文
生成式摘要的深度学习网络基本结构 l 编码器/解码器结构,都是神经网络结构 l 输入的原文经过编码器编码变成向量 l 解码器从向量里面提取关键信息,组合成生成式摘要 深度学习内部注意力机制的引入 l 内部注意力机制在解码器里面做 l 关注已生成词,解决长序列摘要生成时,个别字词重复出现的问题 Bi_LSTM Bi_LSTM Bi_LSTM RNN RNN 解码器内部注意力机制 输入序列 输入序列 输入序列 输入序列。。。 编码器 解码器 摘要序列。。。 摘要序列 Rouge指标优化 Reward 文本摘要候选集 生成 更新模型 反馈 增强学习优化 深度学习模型 评分 强化学习和深度学习相结合的学习方式 l 最优化词的联合概率分布:MLE(最大似然),有监督学习。在这里生成候选的摘要集。 l ROUGE指标评价:不可导,无法采用梯度下降的方式训练,考虑强化学习,鼓励reward高的模型,通过 给与反馈来更新模型。最终训练得到表现最好的模型。 生成式摘要 Bi_LSTM Bi_LSTM Bi_LSTM RNN RNN Rouge指标优化 Reward 文本摘要候选集 生成 解码器内部注意力机制 编码器 解码器 深度学习摘要生成式模型 输入序列 输入序列 输入序列。。。 摘要序列。。。 摘要序列 更新模型 评分 返回 增强学习优化模块 最优摘要结果 生成式摘要 知识图谱关系抽取:联合学习方法0 码力 | 46 页 | 25.61 MB | 1 年前3机器学习课程-温州大学-13深度学习-Transformer
Transformer的工作流程 04 BERT 4 1.Transformer介绍 为什么需要用transformer 其实在之前我们使用的是RNN(或者是其的单向或者双向变种LSTM/GRU等) 来 作为编解码器。RNN模块每次只能够吃进一个输入token和前一次的隐藏状态,然 后得到输出。它的时序结构使得这个模型能够得到长距离的依赖关系,但是这也 使得它不能够并行计算,模型效率十分低。 在没有transformer的时候,我们 通常来说,Seq2Seq任务最常见的是使用Encoder+Decoder的模式,先将一个序 列编码成一个上下文矩阵,在使用Decoder来解码。当然,我们仅仅把context vector作为编码器到解码器的输入。 7 1.Transformer介绍 Attention注意力机制 在介绍什么是注意力机制之前, 先让大家看一张图片。当大家看 到下面图片,会首先看到什么内 容?当过载信息映入眼帘时,我 件部分也是由相同数量 (与编码器对应)的解 码器(decoder)组成 的。 17 2.Transformer的工作流程 所有的编码器在结构上都是相同 的,但它们没有共享参数。每个 解码器都可以分解成两个子层。 18 2.Transformer的工作流程 从编码器输入的句子首先会经过一个自注意力(self-attention)层,这层帮助编码器在对每 个单词编码时关注输入句子的其他单词。0 码力 | 60 页 | 3.51 MB | 1 年前3【PyTorch深度学习-龙龙老师】-测试版202112
网络(编码器);ℎ?2看成数据解码(Decode)的过程,把 编码过后的输入?解码为高维度的?,称为 Decoder 网络(解码器)。 预览版202112 第 12 章 自编码器 2 ? ? ? ??1 ℎ?2 ?? 图 12.1 自编码器模型 编码器和解码器共同完成了输入数据?的编码和解码过程,我们把整个网络模型??叫做自动 编码器(Auto-Encoder),简 Auto-encoder),如图 12.2 所示。 输入? 输出? 隐藏向量 图 12.2 利用神经网络参数化的自编码器 自编码器能够将输入变换到隐藏向量?,并通过解码器重建(Reconstruct,或恢复)出? 。 我们希望解码器的输出能够完美地或者近似恢复出原来的输入,即? ≈ ?,那么,自编码器 的优化目标可以写成: min ℒ = dist(?, ? ) ? = ℎ?2(??1( 12.2.2 编码器 我们利用编码器将输入图片? ∈ ?784降维到较低维度的隐藏向量: ∈ ?20,并基于隐 藏向量 利用解码器重建图片,自编码器模型如图 12.5 所示,编码器由 3 层全连接层网络 组成,输出节点数分别为 256、128、20,解码器同样由 3 层全连接网络组成,输出节点数 分别为 128、256、784。 预览版202112 12.2 Fashion MNIST0 码力 | 439 页 | 29.91 MB | 1 年前3机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入
Vaswani et.al 的论文《Attention Is All You Need》 中,考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积 神经网络,性能最好的模型被证明还是通过注意力机制(attention mechanism)连接编码器和解码器,因而《Attention Is All You Need》 中提出了一种新的简单架构——Transformer,它完全基于注意力机制, GPT-1:模型更简化、计算加速,更适合自然语言生成任务(NLG) VS 35 ◼ GPT1相比于Transformer等模型进行了显著简化 ✓ 相比于Transformer,GPT训练了一个12层仅decoder的解码器(原Transformer模型中包含Encoder和Decoder两部分)。 ✓ 相比于Google的BERT(Bidirectional Encoder Representations from0 码力 | 44 页 | 2.36 MB | 1 年前3机器学习课程-温州大学-09深度学习-目标检测
network,即瓶颈网络,Neck部分的主要作用就是将由backbone输出的 特征进行整合。 Detection head,即检测头,这一部分的作用就就是若干卷积层进行预测, 也有些工作里把head部分称为decoder(解码器)的。 15 01 目标检测概述 2.目标检测算法 02 目标检测算法 03 YOLO算法 04 Faster RCNN算法 16 2.目标检测算法 170 码力 | 43 页 | 4.12 MB | 1 年前3Keras: 基于 Python 的深度学习库
中每个批次样本的序列长度。 • greedy: 如果为 True,则执行更快速的最优路径搜索,而不使用字典。 • beam_width: 如果 greedy 为 false,将使用该宽度的 beam 搜索解码器搜索。 • top_paths: 如果 greedy 为 false,将返回多少条最可能的路径。 返回 • Tuple: • List: 如果 greedy 为 true,返回包含解码序列的一个元素的列表。如果为0 码力 | 257 页 | 1.19 MB | 1 年前3
共 7 条
- 1