结构化证明 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

QCon2018北京-基于深度学习的视频结构化实践-姚唐仁

《基于深度学习的视频结构化实践》七牛云 AI实验室首席架构师／姚唐仁� • 围绕海量数据提供创新的云服务，帮助客户缩短想法到产品的距离 • 创立6年，每年超过300%的业绩增长 • 已完成5轮融资，累计超过20亿 • 长期服务70多万企业用户和开发者 • 文件数超过2000亿，每日新增文件20亿 • 覆盖全球300个节点 • 覆盖金融、公安、广电媒体、互联网等行业视觉-最重要的信息感知 2017中国网络视频用户情况 ��2017�� 传统视频摘要 vs AI视频结构化内容不完整依赖经验实时性差时效性差识别范围广效率高可迭代创新基础传统手工摘要 AI视频结构化视频结构化场景视频分解基础模型要素 ��1�01:02:03-01:10:05� ��1�� 2 �� PA� �� 3 4 5 6 ��L �� PA� �� L �� L 大规模视频训练框架结构化策略 �� 主题分类-特征提取 DPN SENet ResNeXt NASNet 主题分类-模型训练模型融合 a) Early

0 码力 | 39 页 | 38.01 MB | 1 年前
3
动手学深度学习 v2.0

据，我们能否简单地根据经验数据发现它们之间的关系？ • 生成对抗性网络（generative adversarial networks）：为我们提供一种合成数据的方法，甚至像图像和音频这样复杂的非结构化数据。潜在的统计机制是检查真实和虚假数据是否相同的测试，它是无监督学习的另一个重要而令人兴奋的领域。 1.3.3 与环境互动有人一直心存疑虑：机器学习的输入（数据）来自哪里？机器学习的输出又将去往何方？到目前为止，不管写数字的数据集被认为是巨大的。考虑到数据和计算的稀缺性，核方法（kernel method）、决策树（decision tree）和图模型（graph models）等强大的统计工具（在经验上）证明是更为优越的。与神经网络不同的是，这些算法不需要数周的训练，而且有很强的理论依据，可以提供可预测的结果。 1.5 深度学习的发展大约2010年开始，那些在计算上看起来不可行的神经网络算和真实数据。通过使用任意算法生成数据的能力，它为各种技术打开了密度估计的大门。驰骋的斑马 (Zhu et al., 2017) 和假名人脸 (Karras et al., 2017) 的例子都证明了这一进展。即使是业余的涂鸦者也可以根据描述场景布局的草图生成照片级真实图像（(Park et al., 2019) ）。 • 在许多情况下，单个GPU不足以处理可用于训练的大量数据。在过去的十年中，构建并行和分布式训练

0 码力 | 797 页 | 29.45 MB | 1 年前
3
Chatbots 中对话式交互系统的分析与应用

subbranch=中关村店) request(phone, name) 理解模块对话管理模块产生模块 Spoken Language Understanding (SLU) • 结构化表示自然语言的语义： • act1 (slot1=value1, slot2=value2,…), act2 (slot1=value1,…), … • acttype, slot, value的取值范围已预先定义好 Gašić (2014) 语言生成 Natural Language Generation (NLG) • 把结构化的系统动作翻译成人类的语言 Steve Young (2016) 语言生成 Natural Language Generation (NLG) • 把结构化的系统动作翻译成人类的语言 • Semantically Conditioned LSTM (SC-LSTM) Tsung-Hsien Tsung-Hsien Wen (2016) 语言生成 Natural Language Generation (NLG) • 把结构化的系统动作翻译成人类的语言 • Semantically Conditioned LSTM (SC-LSTM) Tsung-Hsien Wen (2016) Task-Bot: 其他框架 • Microsoft: End-to-End Task-Completion

0 码力 | 39 页 | 2.24 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra

转置的以下属性很容易验证： 3.3 对称矩阵如果，则矩阵是对称矩阵。如果，它是反对称的。很容易证明，对于任何矩阵，矩阵是对称的，矩阵是反对称的。由此得出，任何方矩阵可以表示为对称矩阵和反对称矩阵的和，所以：上面公式的右边的第一个矩阵是对称矩阵，而第二个矩阵是反对称矩阵。事实证明，对称矩阵在实践中用到很多，它们有很多很好的属性，我们很快就会看到它们。通常将大小为的所有对称矩阵的集合表，为方阵, 则：对于矩阵 , , , 为方阵, 则： , 同理，更多矩阵的积也是有这个性质。作为如何证明这些属性的示例，我们将考虑上面给出的第四个属性。假设和（因此是方阵）。观察到也是一个方阵，因此对它们进行迹的运算是有意义的。要证明，请注意：这里，第一个和最后两个等式使用迹运算符和矩阵乘法的定义，重点在第四个等式，使用标量乘法的可交换性来反转每矩阵的列秩是构成线性无关集合的的最大列子集的大小。由于术语的多样性，这通常简称为的线性无关列的数量。同样，行秩是构成线性无关集合的的最大行数。对于任何矩阵，事实证明的列秩等于的行秩（尽管我们不会证明这一点），因此两个量统称为的秩，用表示。以下是秩的一些基本属性：对于，，如果，则：被称作满秩。对于，对于 , , 对于， 3.7

0 码力 | 19 页 | 1.66 MB | 1 年前
3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博

排序目标 • 提高用户的信息消费效率 • 提升用户黏性技术挑战 Ø 规模大 • 用户和Feed内容数量大 Ø 指标量化 • 用户体验 • 内容更新快，实时性要求高 • 内容形式多样、非结构化 • 海量计算、超大规模模型优化 1 2 3 深度学习应用与实践常规CTR方法排序微博Feed流排序场景介绍目录 CTR概要介绍数据特征目标模型效果 Ø CTR任务特点模型算法是手段 • 模型算法殊途同归 • 业务和数据决定模型算法的应用场景 • 计算力和算法架构是保障总结展望 Ø 未来工作 • 更多的融合网络结构适用于CTR预估场景 • 多模态—更好的对非结构化内容进行表征 • 用户行为序列embedding

0 码力 | 21 页 | 2.14 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob

假设我们有两个随机变量，一个方法是分别考虑它们。如果我们这样做，我们只需要和。但是如果我们想知道在随机实验的结果中，和同时假设的值，我们需要一个更复杂的结构，称为和的联合累积分布函数，定义如下: 可以证明，通过了解联合累积分布函数，可以计算出任何涉及到和的事件的概率。联合CDF: 和每个变量的联合分布函数和分别由下式关联: 这里我们称和为的边缘累积概率分布函数。性质： 3 和是独立的，也就是说，你只要知道和就知道关于这对变量，的所有信息。以下引理将这一观察形式化: 引理3.1 如果和是独立的，那么对于任何，，我们有：利用上述引理，我们可以证明如果与无关，那么的任何函数都与的任何函数无关。 3.7 期望和协方差假设我们有两个离散的随机变量，并且是这两个随机变量的函数。那么的期望值以如下方式定义：对于连续随机变量，然后将完全相同的训练样本的个副本添加到训练集中。在这种情况下，我们有：尽管训练集的大小为，但这些例子并不独立！虽然这里描述的过程显然不是为机器学习算法建立训练集的明智方法，但是事实证明，在实践中，样本的不独立性确实经常出现，并且它具有减小训练集的“有效大小”的效果。 4.2 随机向量假设我们有n个随机变量。当把所有这些随机变量放在一起工作时，我们经常会发现把它们放在一个向

0 码力 | 12 页 | 1.17 MB | 1 年前
3
机器学习课程-温州大学-11机器学习-降维

T的所有特征向量组成一个 ? × ?的矩阵?，就是我们 ??? 公式里面的 ? 矩阵了。一般我们将?中的每个特征向量叫做? 的左奇异向量。注意：??T = (???T)(???T)T = ?(??T)?T 上式证明使用了?T? = ?, ?T = ?。可以看出的??T特征向量组成的矩阵就是我们 SVD 中的 ? 矩阵。 19 2.SVD(奇异值分解) ?矩阵求解如果我们将 ? 的转置和 ? 做矩阵乘法，那么会得到 × ? 的矩阵?，就是我们 SVD 公式里面的 ? 矩阵了。一般我们将 ?中的每个特征向量叫做 ? 的右奇异向量。注意：由于?T? = (???T)T(???T) = ?(?T?)?T 上式证明使用了??? = ?, ?? = ?。可以看出?T?的特征向量组成的矩阵就是我们 SVD 中的 ? 矩阵。 21 2.SVD(奇异值分解) ? 矩阵求解进一步我们还可以看出我们的特征值矩阵等于奇异值矩阵的平方，也就

0 码力 | 51 页 | 3.14 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

recurrent_dropout: 在 0 和 1 之间的浮点数。单元的丢弃比例，用于循环层状态的线性转换。 • implementation: 实现模式，1 或 2。模式 1 将把它的操作结构化为更多的小的点积和加法操作，而模式 2 将把它们分批到更少，更大的操作中。这些模式在不同的硬件和不同的应用中具有不同的性能配置文件。 • return_sequences: 布尔值。是返回 recurrent_dropout: 在 0 和 1 之间的浮点数。单元的丢弃比例，用于循环层状态的线性转换。关于 KERAS 网络层 95 • implementation: 实现模式，1 或 2。模式 1 将把它的操作结构化为更多的小的点积和加法操作，而模式 2 将把它们分批到更少，更大的操作中。这些模式在不同的硬件和不同的应用中具有不同的性能配置文件。 • return_sequences: 布尔值。是返回 recurrent_dropout: 在 0 和 1 之间的浮点数。单元的丢弃比例，用于循环层状态的线性转换。 • implementation: 实现模式，1 或 2。模式 1 将把它的操作结构化为更多的小的点积和加法关于 KERAS 网络层 99 操作，而模式 2 将把它们分批到更少，更大的操作中。这些模式在不同的硬件和不同的应用中具有不同的性能配置文件。 5.6.8 LSTMCell

0 码力 | 257 页 | 1.19 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

2017年，在Ashish Vaswani et.al 的论文《Attention Is All You Need》中，考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积神经网络，性能最好的模型被证明还是通过注意力机制（attention mechanism）连接编码器和解码器，因而《Attention Is All You Need》中提出了一种新的简单架构——Transformer，它完全基于注意力机制，记数据却很少，这使得经过区分训练的模型很难充分执行。同时，大多数深度学习方法需要大量手动标记的数据，这限制了它们在许多缺少注释资源的领域的适用性。 ✓ 在考虑以上局限性的前提下，GPT论文中证明，通过对未标记文本的不同语料库进行语言模型的生成性预训练，然后对每个特定任务进行区分性微调，可以实现这些任务上的巨大收益。和之前方法不同，GPT在微调期间使用任务感知输入转换，以实现有效的传输，

0 码力 | 44 页 | 2.36 MB | 1 年前
3
Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf

跟踪算法在T0-100评测集，在实时速度d，RTHFLULQP 和UuFFHUU TDVH效果最好内容理解——多目标检测f跟踪 ��/�� A51视频智能缩略图 • 目的a通过对视频进行结构化分析，对关键帧、视频镜头进行筛选和排序，选择最w的关键帧、关键片段来作i视频的展示 • 方法a视频智能缩略图采用关键帧提取+99>w化+美学评分等方法，选择视频h最w关键帧作i该视频的首图。

0 码力 | 24 页 | 9.60 MB | 1 年前
3

共 21 条前往

页

分类

语言

格式