机器学习课程-温州大学-13深度学习-Transformer
Transformer的训练 本章目录 01 Transformer介绍 02 Transformer的工作流程 04 BERT 3 1.Transformer介绍 01 Transformer介绍 03 Transformer的训练 02 Transformer的工作流程 04 BERT 4 1.Transformer介绍 为什么需要用transformer 1.Transformer介绍 Seq2Seq任务 Seq2Seq 任务指的是输入和输出都是 序列的任务,输出的长度不确定时采 用的模型,这种情况一般是在机器翻 译的任务中出现,将一句中文翻译成 英文,那么这句英文的长度有可能会 比中文短,也有可能会比中文长,所 以输出的长度就不确定了。 上图,输入的中文长度为4,输出的英文长度为2 6 1.Transformer介绍 Encoder-Decoder模型 息会被弱化,就好像记忆能力弱的人,记不住过去的事情是一样的。 10 2017年google的机器翻译团队在 NIPS上发表了Attention is all you need的文章,开创性地提出了 在序列转录领域,完全抛弃 CNN和RNN,只依赖Attention-注 意力结构的简单的网络架构, 名为Transformer;论文实现的 任务是机器翻译。 Transformer结构 Multi-Head Attention0 码力 | 60 页 | 3.51 MB | 1 年前3动手学深度学习 v2.0
. 354 9.4.3 双向循环神经网络的错误应用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356 9.5 机器翻译与数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 9.5.1 下载和预处理数据集 这些需求的工具和工作流程,所以我 们不得不自行组装。我们在 16.5节 中详细描述了我们的方法。我们选择GitHub来共享源代码并允许编辑,选 择Jupyter记事本来混合代码、公式和文本,选择Sphinx作为渲染引擎来生成多个输出,并为论坛提供讨论。 虽然我们的体系尚不完善,但这些选择在相互冲突的问题之间提供了一个很好的妥协。我们相信,这可能是 第一本使用这种集成工作流程出版的书。 1 上,许多重要的任务可以清晰地描述为,在给定一组特定的可用数据的情况下,估计未知事物的概率。比如: • 根据计算机断层扫描(Computed Tomography,CT)肿瘤图像,预测是否为癌症; • 给出一个英语句子,预测正确的法语翻译; • 根据本月的财务报告数据,预测下个月股票的价格; 监督学习的学习过程一般可以分为三大步骤: 1. 从已知大量数据样本中随机选取一个子集,为每个样本获取真实标签。有时,这些样本已有标签(例如,0 码力 | 797 页 | 29.45 MB | 1 年前3Keras: 基于 Python 的深度学习库
Keras 深度学习库时方 便本地查阅,下载最新 PDF 版本请访问: https://github.com/wanzhenchn/keras-docs-zh。 感谢 keras-team 所做的中文翻译工作,本文档制作基于此处。 严正声明:本文档可免费用于学习和科学研究,可自由传播,但切勿擅自用于商业用途,由 此引发一切后果贡献者概不负责。 The main reason of organizing 与底层深度学习语言(特别是 Ten- sorFlow)集成在一起,所以它可以让你实现任何你可以用基础语言编写的东西。特别是, tf.keras 作为 Keras API 可以与 TensorFlow 工作流无缝集成。 2.2 Keras 被工业界和学术界广泛采用 Deep learning 框架排名,由 Jeff Hale 基于 7 个分类的 11 个数据源计算得出 截至 2018 年中期,Keras SCIKIT-LEARN API 235 19 Scikit-learn API Scikit-Learn API 的封装器 你可以使用 Keras 的顺序模型 (仅限单一输入) 作为 Scikit-Learn 工作流程的一部分,通过在 此找到的包装器: keras.wrappers.scikit_learn.py. 有两个封装器可用: keras.wrappers.scikit_learn.KerasCl0 码力 | 257 页 | 1.19 MB | 1 年前3机器学习课程-温州大学-01深度学习-引言
•图像滤波与降噪 •图像增强 •风格迁移 •三维重建 •图像检索 •GAN 12 深度学习-CV典型应用案例 翻译 传统翻译采用人工查词的方式,不但耗时长 ,而且错误率高。图像识别技术(OCR)的出 现大大提升了翻译的效率和准确度,用户通 过简单的拍照、截图或划线就能得到准确的 翻译结果。 体育赛事 计算机视觉还有助于比赛和策略分 析、球员表现和评级,以及跟踪体育 节目中品牌赞助的可见性。 机科学、数学等领域的交叉学科。自然语 言处理,是指用计算机对自然语言 的形、音、义等信息进行处理 ,即对字、词、句、篇章的输入、输出、识别、 分析、理解、生 成等的操作和加工。自然语言处理的具体表现形式包括机器 翻译 、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识 别等。 可以说,自然语言处理就是要计算机理解自然语言,自然 语言处理机制涉及 两个流程,包括自然语言理解和自然语言生成 ,自然语言理解是让计算机把 基于规则的方法 2008 • 深度学习 未来 深度学习入门-NLP(自然语言处理) 19 深度学习入门-NLP(自然语言处理) 1.短文本相似 2.文本分类 3.QA机器人 4.语义标注 5.机器翻译 6.…… 20 2020 2013 2017 2019 2018 • ELECTRA • ALBERT • GPT-3 • BERT • GPT • ELMo 2014 • word2vec0 码力 | 80 页 | 5.38 MB | 1 年前3《TensorFlow 快速入门与实战》4-实战TensorFlow房价预测
22368 -1.02697 -0.63757 -0.22368 -0.78305 训练数据: 假设函数: 使用 TensorFlow 实现房价预测模型 使用 TensorFlow 训练模型的工作流 数据读入 数据分析 数据 规范化 创建模型 (数据流图) 创建会话 (运行环境) 训练模型 数据分析库:Pandas Pandas 是一个 BSD 开源协议许可的,面向 Python 召回率等评估指标。 因此,TensorFlow 项目组开发了机器学习可视化工具 TensorBoard , 它通过展示直观的图形,能够有效地辅助机器学习程序的开发者和使 用者理解算法模型及其工作流程,提升模型开发工作效率。 TensorBoard 可视化训练 TensorBoard 可视化统计数据 TensorBoard 可视化数据分布 TensorBoard 可视化数据集(MNIST) 3个类组成。 可视化数据流图 工作流 创建 数据流图 创建 FileWriter 实例 启动 TensorBoard Which one is better? VS ✅ 名字作用域与抽象节点 创建 FileWriter 实例 启动 TensorBoard 实战 TensorFlow 房价预测 实战 TensorFlow 房价预测 工作流 数据处理 设计模型 (数据流图)0 码力 | 46 页 | 5.71 MB | 1 年前3Qcon北京2018-《文本智能处理的深度学习技术》-陈运文
机交流 应用:智能问答,机器翻译,文本分类,文本摘要,标 签提取,情感分析,主题模型 NLP发展简史 1950S 1980s 1990s 2006~至今 以机器翻译为开端,作 为早期尝试,但不是很 成功 基于统计机器学习技术 及语料库,使用统计模 型,NLP发展产生革新 多数自然语言处理系统 基于规则,人工修订等 方式,包括问答、翻译、 搜索等 深度学习起步、发展及 深度学习用于各类型文本应用的实践方法 文本挖掘各种类型应用的处理框架 文本数据 结果 预处理 输出层 表示层 隐层 不同深度学习模型 后处理 NER 分词 情感分析 文本分类 机器翻译 … 文本分类 传统机器学习 • 选择分类器(朴素贝叶斯,SVM,KNN,LR,决 策树) • 特征工程构造特征 • 不同领域定制优化成本高 • 常需要分类算法融合提升效果 深度学习(CNN,RNN等)0 码力 | 46 页 | 25.61 MB | 1 年前3机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra
本文是斯坦福大学CS 229机器学习课程的基础材料,原始文件下载 原文作者:Zico Kolter,修改:Chuong Do, Tengyu Ma 翻译:黄海广 备注:请关注github的更新,线性代数和概率论已经更新完毕。 CS229 机器学习课程复习材料-线性代数 CS229 机器学习课程复习材料-线性代数 线性代数复习和参考 1. 基础概念和符号 1.1 基本符号 2 我们将第一种情况表示为 ,第二种情况表示为 。 保持符号清晰是非常重要的,以后完成课程作业时候你就会发现。 4.2 黑塞矩阵 假设 是一个函数,它接受 中的向量并返回实数。那么关于 的黑塞矩阵(也有翻译作海 森矩阵),写做: ,或者简单地说, 是 矩阵的偏导数: 换句话说, ,其: 注意:黑塞矩阵通常是对称阵: 与梯度相似,只有当 为实值时才定义黑塞矩阵。 很自然地认为梯度与向量函数的一 处为零(这不是唯一的条件,但它是必需的)。也就是说, 请注意,这只是线性方程 。 这表明假设 ,可能最大化(或最小化) 的唯一点是 的特征向量。 线性代数和概率论都已经翻译完毕,请关注github的更新,若有修改将在github上更新 欢迎大家提交PR,对语言进行润色。 翻译:黄海广0 码力 | 19 页 | 1.66 MB | 1 年前3Chatbots 中对话式交互系统的分析与应用
(2014) 语言生成 Natural Language Generation (NLG) • 把结构化的系统动作翻译成人类的语言 Steve Young (2016) 语言生成 Natural Language Generation (NLG) • 把结构化的系统动作翻译成人类的语言 • Semantically Conditioned LSTM (SC-LSTM) Tsung-Hsien Tsung-Hsien Wen (2016) 语言生成 Natural Language Generation (NLG) • 把结构化的系统动作翻译成人类的语言 • Semantically Conditioned LSTM (SC-LSTM) Tsung-Hsien Wen (2016) Task-Bot: 其他框架 • Microsoft: End-to-End Task-Completion0 码力 | 39 页 | 2.24 MB | 1 年前3【PyTorch深度学习-龙龙老师】-测试版202112
部分,主要介绍神经网络的核心理论和共性知识,让读者理解深 度学习的本质;第 10~15 章为模型算法应用部分,主要介绍常见的算法与模型,让读者能够 学有所用。 在本书中编写时,很多英文词汇尚无法在业界找到一个共识翻译名,因此作者备注翻译 的英文原文,供读者参考,同时也方便读者日后阅读相关英文文献时,不至于感到陌生。 尽管每天都有深度学习相关算法论文的发布,但是作者相信,深度学习的核心思想和基 础理论是共通的。本书 超人的智力水平, 如在围棋上 AlphaGo 智能程序已经击败人类最强围棋专家之一柯洁,在 Dota2 游戏上 OpenAI Five 智能程序击败世界冠军队伍 OG,同时人脸识别、智能语音、机器翻译等一项 项实用的技术已经进入到人们的日常生活中。现在我们的生活处处被人工智能所环绕,尽 管目前能达到的智能水平离通用人工智能(Artificial General Intelligence,简称 AGI)还有一 2019 OpenAI Five ResNet 2015 2014 VGG GooLeNet 2015 Batch Normalization 德州扑克 Pluribus 2019 机器翻译 BERT 2018 TensorFlow 发布 2015 PyTorch 0.1 发布 2017 2018 PyTorch 1.0 发布 图 1.9 深度学习发展时间线 10 码力 | 439 页 | 29.91 MB | 1 年前3《TensorFlow 2项目进阶实战》1-基础理论篇:TensorFlow 2设计思想
模型格式 TensorFlow 2 vs TensorFlow 1.x Keras vs TensorFlow 1.x TensorFlow 1.x 工作流 Full of abstract notions TensorFlow 2 工作流 Native Friendly to TensorFlow 生产级 AI 方案 TensorFlow 2 落地应用 TensorFlow 与移动互联网的结合0 码力 | 40 页 | 9.01 MB | 1 年前3
共 18 条
- 1
- 2