解码器 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

动手学深度学习 v2.0

训练模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362 9.6 编码器‐解码器架构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364 9.6.1 编码器 . . . . . . . . . . . . . . . . . . 364 9.6.2 解码器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365 9.6.3 合并编码器和解码器 . . . . . . . . . . . . . . . . . . . . . . . 编码器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367 9.7.2 解码器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 9.7.3 损失函数

0 码力 | 797 页 | 29.45 MB | 1 年前
3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文

生成式摘要的深度学习网络基本结构 l 编码器/解码器结构，都是神经网络结构 l 输入的原文经过编码器编码变成向量 l 解码器从向量里面提取关键信息，组合成生成式摘要深度学习内部注意力机制的引入 l 内部注意力机制在解码器里面做 l 关注已生成词，解决长序列摘要生成时，个别字词重复出现的问题 Bi_LSTM Bi_LSTM Bi_LSTM RNN RNN 解码器内部注意力机制输入序列输入序列输入序列输入序列。。。编码器解码器摘要序列。。。摘要序列 Rouge指标优化 Reward 文本摘要候选集生成更新模型反馈增强学习优化深度学习模型评分强化学习和深度学习相结合的学习方式 l 最优化词的联合概率分布：MLE（最大似然），有监督学习。在这里生成候选的摘要集。 l ROUGE指标评价：不可导，无法采用梯度下降的方式训练，考虑强化学习，鼓励reward高的模型，通过给与反馈来更新模型。最终训练得到表现最好的模型。生成式摘要 Bi_LSTM Bi_LSTM Bi_LSTM RNN RNN Rouge指标优化 Reward 文本摘要候选集生成解码器内部注意力机制编码器解码器深度学习摘要生成式模型输入序列输入序列输入序列。。。摘要序列。。。摘要序列更新模型评分返回增强学习优化模块最优摘要结果生成式摘要知识图谱关系抽取：联合学习方法

0 码力 | 46 页 | 25.61 MB | 1 年前
3
机器学习课程-温州大学-13深度学习-Transformer

Transformer的工作流程 04 BERT 4 1.Transformer介绍为什么需要用transformer 其实在之前我们使用的是RNN（或者是其的单向或者双向变种LSTM/GRU等）来作为编解码器。RNN模块每次只能够吃进一个输入token和前一次的隐藏状态，然后得到输出。它的时序结构使得这个模型能够得到长距离的依赖关系，但是这也使得它不能够并行计算，模型效率十分低。在没有transformer的时候，我们通常来说，Seq2Seq任务最常见的是使用Encoder+Decoder的模式，先将一个序列编码成一个上下文矩阵，在使用Decoder来解码。当然，我们仅仅把context vector作为编码器到解码器的输入。 7 1.Transformer介绍 Attention注意力机制在介绍什么是注意力机制之前，先让大家看一张图片。当大家看到下面图片，会首先看到什么内容？当过载信息映入眼帘时，我件部分也是由相同数量（与编码器对应）的解码器（decoder）组成的。 17 2.Transformer的工作流程所有的编码器在结构上都是相同的，但它们没有共享参数。每个解码器都可以分解成两个子层。 18 2.Transformer的工作流程从编码器输入的句子首先会经过一个自注意力（self-attention）层，这层帮助编码器在对每个单词编码时关注输入句子的其他单词。

0 码力 | 60 页 | 3.51 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

网络(编码器)；ℎ?2看成数据解码(Decode)的过程，把编码过后的输入?解码为高维度的?，称为 Decoder 网络(解码器)。预览版202112 第 12 章自编码器 2 ? ? ? ??1 ℎ?2 ?? 图 12.1 自编码器模型编码器和解码器共同完成了输入数据?的编码和解码过程，我们把整个网络模型??叫做自动编码器(Auto-Encoder)，简 Auto-encoder)，如图 12.2 所示。输入? 输出? 隐藏向量图 12.2 利用神经网络参数化的自编码器自编码器能够将输入变换到隐藏向量?，并通过解码器重建(Reconstruct，或恢复)出? 。我们希望解码器的输出能够完美地或者近似恢复出原来的输入，即? ≈ ?，那么，自编码器的优化目标可以写成： min ℒ = dist(?, ? ) ? = ℎ?2(??1( 12.2.2 编码器我们利用编码器将输入图片? ∈ ?784降维到较低维度的隐藏向量： ∈ ?20，并基于隐藏向量利用解码器重建图片，自编码器模型如图 12.5 所示，编码器由 3 层全连接层网络组成，输出节点数分别为 256、128、20，解码器同样由 3 层全连接网络组成，输出节点数分别为 128、256、784。预览版202112 12.2 Fashion MNIST

0 码力 | 439 页 | 29.91 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

Vaswani et.al 的论文《Attention Is All You Need》中，考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积神经网络，性能最好的模型被证明还是通过注意力机制（attention mechanism）连接编码器和解码器，因而《Attention Is All You Need》中提出了一种新的简单架构——Transformer，它完全基于注意力机制， GPT-1：模型更简化、计算加速，更适合自然语言生成任务（NLG） VS 35 ◼ GPT1相比于Transformer等模型进行了显著简化 ✓ 相比于Transformer，GPT训练了一个12层仅decoder的解码器（原Transformer模型中包含Encoder和Decoder两部分）。 ✓ 相比于Google的BERT(Bidirectional Encoder Representations from

0 码力 | 44 页 | 2.36 MB | 1 年前
3
机器学习课程-温州大学-09深度学习-目标检测

network，即瓶颈网络，Neck部分的主要作用就是将由backbone输出的特征进行整合。 Detection head，即检测头，这一部分的作用就就是若干卷积层进行预测，也有些工作里把head部分称为decoder（解码器）的。 15 01 目标检测概述 2.目标检测算法 02 目标检测算法 03 YOLO算法 04 Faster RCNN算法 16 2.目标检测算法 17

0 码力 | 43 页 | 4.12 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

中每个批次样本的序列长度。 • greedy: 如果为 True，则执行更快速的最优路径搜索，而不使用字典。 • beam_width: 如果 greedy 为 false，将使用该宽度的 beam 搜索解码器搜索。 • top_paths: 如果 greedy 为 false，将返回多少条最可能的路径。返回 • Tuple: • List: 如果 greedy 为 true，返回包含解码序列的一个元素的列表。如果为

0 码力 | 257 页 | 1.19 MB | 1 年前
3

共 7 条前往

页

分类

语言

格式

动手学深度学习 v2.0

Qcon北京2018-《文本智能处理的深度学习技术》-陈运文

机器学习课程-温州大学-13深度学习-Transformer

【PyTorch深度学习-龙龙老师】-测试版202112

机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

机器学习课程-温州大学-09深度学习-目标检测

Keras: 基于 Python 的深度学习库