QCon2018北京-基于深度学习的视频结构化实践-姚唐仁
《基于深度学习的视频结构化实践》 七牛云 AI实验室首席架构师/姚唐仁� • 围绕海量数据提供创新的云服务,帮助客户缩短想法到产品的距离 • 创立6年,每年超过300%的业绩增长 • 已完成5轮融资,累计超过20亿 • 长期服务70多万企业用户和开发者 • 文件数超过2000亿,每日新增文件20亿 • 覆盖全球300个节点 • 覆盖金融、公安、广电媒体、互联网等行业 视觉-最重要的信息感知 2017中国网络视频用户情况 ����2017������������� 传统视频摘要 vs AI视频结构化 内容不完整 依赖经验 实时性差 时效性差 识别范围广 效率高 可迭代 创新基础 传统手工摘要 AI视频结构化 视频结构化场景 视频分解 基础模型要素 ��1�01:02:03-01:10:05� ��1����� �� �� 2 ������ ��PA� ������ 3 4 5 6 ���L ������ ��PA� ����� ���L ��������� ������L 大规模视频训练框架 结构化策略 ���� ������ ���� ���� 主题分类-特征提取 DPN SENet ResNeXt NASNet 主题分类-模型训练 模型融合 a) Early0 码力 | 39 页 | 38.01 MB | 1 年前3动手学深度学习 v2.0
据,我们能否简单地根据经验数据发现它们之间的关系? • 生成对抗性网络(generative adversarial networks):为我们提供一种合成数据的方法,甚至像图像和 音频这样复杂的非结构化数据。潜在的统计机制是检查真实和虚假数据是否相同的测试,它是无监督 学习的另一个重要而令人兴奋的领域。 1.3.3 与环境互动 有人一直心存疑虑:机器学习的输入(数据)来自哪里?机器学习的输出又将去往何方?到目前为止,不管 写数字的数据集被认为是巨大的。考虑到数据和计算的稀缺性,核方法 (kernel method)、决策树(decision tree)和图模型(graph models)等强大的统计工具(在经验上)证明 是更为优越的。与神经网络不同的是,这些算法不需要数周的训练,而且有很强的理论依据,可以提供可预 测的结果。 1.5 深度学习的发展 大约2010年开始,那些在计算上看起来不可行的神经网络算 和真实数 据。通过使用任意算法生成数据的能力,它为各种技术打开了密度估计的大门。驰骋的斑马 (Zhu et al., 2017) 和假名人脸 (Karras et al., 2017) 的例子都证明了这一进展。即使是业余的涂鸦者也可以根据描述 场景布局的草图生成照片级真实图像((Park et al., 2019) )。 • 在许多情况下,单个GPU不足以处理可用于训练的大量数据。在过去的十年中,构建并行和分布式训练0 码力 | 797 页 | 29.45 MB | 1 年前3Chatbots 中对话式交互系统的分析与应用
subbranch=中关村店) request(phone, name) 理解模块 对话管理 模块 产生模块 Spoken Language Understanding (SLU) • 结构化表示自然语言的语义: • act1 (slot1=value1, slot2=value2,…), act2 (slot1=value1,…), … • acttype, slot, value的取值范围已预先定义好 Gašić (2014) 语言生成 Natural Language Generation (NLG) • 把结构化的系统动作翻译成人类的语言 Steve Young (2016) 语言生成 Natural Language Generation (NLG) • 把结构化的系统动作翻译成人类的语言 • Semantically Conditioned LSTM (SC-LSTM) Tsung-Hsien Tsung-Hsien Wen (2016) 语言生成 Natural Language Generation (NLG) • 把结构化的系统动作翻译成人类的语言 • Semantically Conditioned LSTM (SC-LSTM) Tsung-Hsien Wen (2016) Task-Bot: 其他框架 • Microsoft: End-to-End Task-Completion0 码力 | 39 页 | 2.24 MB | 1 年前3机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra
转置的以下属性很容易验证: 3.3 对称矩阵 如果 ,则矩阵 是对称矩阵。 如果 ,它是反对称的。 很容易证明,对于任 何矩阵 ,矩阵 是对称的,矩阵 是反对称的。 由此得出,任何方矩阵 可以表示为对称矩阵和反对称矩阵的和,所以: 上面公式的右边的第一个矩阵是对称矩阵,而第二个矩阵是反对称矩阵。 事实证明,对称矩阵在实践中 用到很多,它们有很多很好的属性,我们很快就会看到它们。 通常将大小为 的所有对称矩阵的集合表 , 为方阵, 则: 对于矩阵 , , , 为方阵, 则: , 同理,更多矩阵的积也是有 这个性质。 作为如何证明这些属性的示例,我们将考虑上面给出的第四个属性。 假设 和 (因 此 是方阵)。 观察到 也是一个方阵,因此对它们进行迹的运算是有意义的。 要证明 ,请注意: 这里,第一个和最后两个等式使用迹运算符和矩阵乘法的定义,重点在第四个等式,使用标量乘法的可 交换性来反转每 矩阵 的列秩是构成线性无关集合的 的最大列子集的大小。 由于术语的多样性,这通常简称 为 的线性无关列的数量。同样,行秩是构成线性无关集合的 的最大行数。 对于任何矩阵 ,事实证明 的列秩等于 的行秩(尽管我们不会证明这一点),因此两个量统称为 的秩,用 表示。 以下是秩的一些基本属性: 对于 , ,如果 ,则: 被称作满秩。 对于 , 对于 , , 对于 , 3.70 码力 | 19 页 | 1.66 MB | 1 年前3QCon北京2018-《深度学习在微博信息流排序的应用》-刘博
排序目标 • 提高用户的信息消费效率 • 提升用户黏性 技术挑战 Ø 规模大 • 用户和Feed内容数量大 Ø 指标量化 • 用户体验 • 内容更新快,实时性要求高 • 内容形式多样、非结构化 • 海量计算、超大规模模型优化 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 CTR概要介绍 数据 特征 目标 模型 效果 Ø CTR任务特点 模型算法是手段 • 模型算法殊途同归 • 业务和数据决定模型算法的应用场景 • 计算力和算法架构是保障 总结展望 Ø 未来工作 • 更多的融合网络结构适用于CTR预估场景 • 多模态—更好的对非结构化内容进行表征 • 用户行为序列embedding0 码力 | 21 页 | 2.14 MB | 1 年前3机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob
假设我们有两个随机变量,一个方法是分别考虑它们。如果我们这样做,我们只需要 和 。 但是如果我们想知道在随机实验的结果中, 和 同时假设的值,我们需要一个更复杂的结构,称为 和 的联合累积分布函数,定义如下: 可以证明,通过了解联合累积分布函数,可以计算出任何涉及到 和 的事件的概率。 联合CDF: 和每个变量的联合分布函数 和 分别由下式关联: 这里我们称 和 为 的边缘累积概率分布函数。 性质: 3 和 是独立的,也就是说,你只要知道 和 就知道关于这对变量 , 的所有信息。 以下引理将这一观察形式化: 引理3.1 如果 和 是独立的,那么对于任何 , ,我们有: 利用上述引理,我们可以证明如果 与 无关,那么 的任何函数都与 的任何函数无关。 3.7 期望和协方差 假设我们有两个离散的随机变量 , 并且 是这两个随机变量的函数。那么 的期望值以 如下方式定义: 对于连续随机变量 ,然后将完全相同的训练样本的 个副本添加到训练集中。在这种情况 下,我们有: 尽管训练集的大小为 ,但这些例子并不独立!虽然这里描述的过程显然不是为机器学习算法建立训练 集的明智方法,但是事实证明,在实践中,样本的不独立性确实经常出现,并且它具有减小训练集 的“有效大小”的效果。 4.2 随机向量 假设我们有n个随机变量。当把所有这些随机变量放在一起工作时,我们经常会发现把它们放在一个向0 码力 | 12 页 | 1.17 MB | 1 年前3机器学习课程-温州大学-11机器学习-降维
T的所有特征向量组成一个 ? × ?的矩阵?,就是我们 ??? 公式里面的 ? 矩阵了。 一般我们将?中的每个特征向量叫做? 的左奇异向量。 注意:??T = (???T)(???T)T = ?(??T)?T 上式证明使用了?T? = ?, ?T = ?。可以看出的??T特征向量组成的矩阵就是我们 SVD 中的 ? 矩阵。 19 2.SVD(奇异值分解) ?矩阵求解 如果我们将 ? 的转置和 ? 做矩阵乘法,那么会得到 × ? 的矩阵?,就是我们 SVD 公式里 面的 ? 矩阵了。一般我们将 ?中的每个特征向量叫做 ? 的右奇异向量。 注意:由于?T? = (???T)T(???T) = ?(?T?)?T 上式证明使用了??? = ?, ?? = ?。可以看出?T?的特征向量组成的矩阵就是我们 SVD 中的 ? 矩阵。 21 2.SVD(奇异值分解) ? 矩阵求解 进一步我们还可以看出我们的特征值矩阵等于奇异值矩阵的平方,也就0 码力 | 51 页 | 3.14 MB | 1 年前3Keras: 基于 Python 的深度学习库
recurrent_dropout: 在 0 和 1 之间的浮点数。单元的丢弃比例,用于循环层状态的线性转 换。 • implementation: 实现模式,1 或 2。模式 1 将把它的操作结构化为更多的小的点积和加法 操作,而模式 2 将把它们分批到更少,更大的操作中。这些模式在不同的硬件和不同的应 用中具有不同的性能配置文件。 • return_sequences: 布尔值。是返回 recurrent_dropout: 在 0 和 1 之间的浮点数。单元的丢弃比例,用于循环层状态的线性转 换。 关于 KERAS 网络层 95 • implementation: 实现模式,1 或 2。模式 1 将把它的操作结构化为更多的小的点积和加法 操作,而模式 2 将把它们分批到更少,更大的操作中。这些模式在不同的硬件和不同的应 用中具有不同的性能配置文件。 • return_sequences: 布尔值。是返回 recurrent_dropout: 在 0 和 1 之间的浮点数。单元的丢弃比例,用于循环层状态的线性转 换。 • implementation: 实现模式,1 或 2。模式 1 将把它的操作结构化为更多的小的点积和加法 关于 KERAS 网络层 99 操作,而模式 2 将把它们分批到更少,更大的操作中。这些模式在不同的硬件和不同的应 用中具有不同的性能配置文件。 5.6.8 LSTMCell0 码力 | 257 页 | 1.19 MB | 1 年前3机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入
2017年,在Ashish Vaswani et.al 的论文《Attention Is All You Need》 中,考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积 神经网络,性能最好的模型被证明还是通过注意力机制(attention mechanism)连接编码器和解码器,因而《Attention Is All You Need》 中提出了一种新的简单架构——Transformer,它完全基于注意力机制, 记数据却很少,这使得经过区分训练的模型很难充分执行。 同时,大多数深度学习方法需要大量手动标记的数据,这限制了它们在许多缺少注释资源的领域的适用性。 ✓ 在考虑以上局限性的前提下,GPT论文中证明,通过对未标记文本的不同语料库进行语言模型的生成性预训练,然后对每个特定任务 进行区分性微调,可以实现这些任务上的巨大收益。和之前方法不同,GPT在微调期间使用任务感知输入转换,以实现有效的传输,0 码力 | 44 页 | 2.36 MB | 1 年前3Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf
跟踪算法在T0-100评测集,在实时速度d,RTHFLULQP 和UuFFHUU TDVH效果最好 内容理解——多目标检测f跟踪 ����/���� A51视频智能缩略图 • 目的a通过对视频进行结构化分析,对关键帧、视频镜头进行筛选和排序, 选择最w的关键帧、关键片段来作i视频的展示 • 方法a视频智能缩略图采用关键帧提取+99>w化+美学评分等方法,选 择视频h最w关键帧作i该视频的首图。0 码力 | 24 页 | 9.60 MB | 1 年前3
共 21 条
- 1
- 2
- 3