QCon北京2018-《深度学习在微博信息流排序的应用》-刘博
微博Feed流产品介绍—排序场景 Ø 信息获取方式 • 主动获取(关注) Ø 内容形式 • 博文/文章/图片/视频/问答/话题/… • 被动获取(推荐) Ø 微博—社交媒体领跑者 • DAU:1.72亿,MAU:3.92亿 • 关注流基于关系链接用户与内容 微博Feed流特点介绍—排序原因 Ø 产品特点 • 传播性强 Ø 存在问题 • 信息过载 • 互动性好 • 信噪比低 信噪比低 Ø 排序目标 • 提高用户的信息消费效率 • 提升用户黏性 技术挑战 Ø 规模大 • 用户和Feed内容数量大 Ø 指标量化 • 用户体验 • 内容更新快,实时性要求高 • 内容形式多样、非结构化 • 海量计算、超大规模模型优化 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 CTR概要介绍 数据 特征 目标 模型 手动组合——专家知识 • categorical特征 • 离散化/归一化处理 • conitnues特征 • one-hot 表示 • 假设检验方式 • 相关系数评估 • 特征组合 • GBDT+互信息——有效挖掘 非线性特征及组合 皮尔逊相关系数特征评估 标签匹配度特征相关系数特征评估 样本采集 Ø 存在问题 • 头部效应 • 实时反馈类收集与在线存在差异性 Ø 解决方案 • 正负样本比例严重失衡0 码力 | 21 页 | 2.14 MB | 1 年前3动手学深度学习 v2.0
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 2.3.11 关于线性代数的更多信息 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 2.4 微积分 . . . . . . . . . . . 6 损失函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 3.4.7 信息论基础 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 3.4.8 模型预测和评估 ∂y ∂x:y关于x的偏导数 • ∇xy:y关于x的梯度 • � b a f(x) dx: f在a到b区间上关于x的定积分 • � f(x) dx: f关于x的不定积分 14 目录 概率与信息论 • P(·):概率分布 • z ∼ P: 随机变量z具有概率分布P • P(X | Y ):X | Y 的条件概率 • p(x): 概率密度函数 • Ex[f(x)]: 函数f对x的数学期望0 码力 | 797 页 | 29.45 MB | 1 年前3【PyTorch深度学习-龙龙老师】-测试版202112
7407&courseId=1209092816&_trace_c _p_k2_=9e74eb6f891d47cfaa6f00b5cb 5f617c https://study.163.com/course/courseMain.h tm?share=2&shareId=480000001847407& courseId=1208894818&_trace_c_p_k2_=8 d1b10e04bd34d69855bb71da65b0549 6 模型部署 15.7 参考文献 预览版202112 人工智能绪论 我们需要的是一台可以从经验中学习的机器。 −阿兰·图灵 1.1 人工智能 信息技术是人类历史上的第三次工业革命,计算机、互联网、智能家居等技术的普及 极大地方便了人们的日常生活。通过编程的方式,人类可以将提前设计好的交互逻辑交给 机器重复且快速地执行,从而将人类从简单枯燥的重复劳动工作中解脱出来。但是对于需 box)表示,并分类出边界框中物体的类别信息,如图 1.15 所示。常 见的目标检测算法有 RCNN、Fast RCNN、Faster RCNN、Mask RCNN、SSD、YOLO、 RetinaNet 系列等。 语义分割(Semantic Segmentation) 是通过算法自动分割并识别出图片中的内容,可以 将语义分割理解为像素点的分类问题,分析每个像素点的物体的类别信息,如图 1.16 所 示。常见的语义分割模型有0 码力 | 439 页 | 29.91 MB | 1 年前3机器学习课程-温州大学-07机器学习-决策树
容易造成过拟合,需要采用剪枝操作。 ⚫ 忽略了数据之间的相关性。 ⚫ 对于各类别样本数量不一致的数据,信息增益会偏向于那些更多数值的特 征。 决策树的特点 7 算法 支持模型 树结构 特征选择 连续值处理 缺失值处理 剪枝 特征属性多次使用 ID3 分类 多叉树 信息增益 不支持 不支持 不支持 不支持 C4.5 分类 多叉树 信息增益率 支持 支持 支持 不支持 CART 分类 回归 二叉树 基尼指数 均方差 构建算法,算法的核心是“信息熵”,期望信息越小,信息熵越大,样 本纯度越低。。 ⚫ ID3 算法是以信息论为基础,以信息增益为衡量标准,从而实现对数据 的归纳分类。 ⚫ ID3 算法计算每个属性的信息增益,并选取具有最高增益的属性作为给 定的测试属性。 ID3 算法 10 2.ID3算法 ID3 算法 其大致步骤为: 1. 初始化特征集合和数据集合; 2. 计算数据集合信息熵和所有特征的条件熵,选择信息增益最大的特征作为当 计算数据集合信息熵和所有特征的条件熵,选择信息增益最大的特征作为当 前决策节点; 3. 更新数据集合和特征集合(删除上一步使用的特征,并按照特征值来划分不 同分支的数据集合); 4. 重复 2,3 两步,若子集值包含单一特征,则为分支叶子节点。 11 ? ? = − ?=1 ? ?? ? ???2 ?? ? 信息熵 ?是类别,?是数据集,??是类别?下的数据集 信息熵 右边数据中: ? ? = −0 码力 | 39 页 | 1.84 MB | 1 年前3Qcon北京2018-《文本智能处理的深度学习技术》-陈运文
训练 预测 深度学习和传统机器学习 输入数据 深度学习算法 输入数据 特征工程 传统机器学习算法 非常耗费时间 以文本分类过程举例,常见 的特征提取算法包括: 词频 TF-IDF 互信息 信息增益 期望交叉熵 主成分分析 … 特征工程需要手工寻找特 征,花费大量人力,特征的 好坏往往决定最终结果 深度学习基础结构 基础神经元结构 多个神经元连接组成神经网络 字词表示 计算机 电脑 anding-LSTMs/ LSTM原理 Ref: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 1,单元状态丢弃 2,新信息选择 3,单元状态更新 4,确定输出 使用深度学习解决NLP问题 03 深度学习用于各类型文本应用的实践方法 文本挖掘各种类型应用的处理框架 文本数据 结果 预处理 输出层 表示层 B-ORG I-ORG I-ORG E-ORG CRF 04 达观数据文本挖掘的实践经验 文 档 智 能 抽 取 功 能 l 财务报表账目信息抽取 l 商业票据关键信息识别 l 应标书信息自动导出 l 基金合同差异核对 l 投资报告项目信息自动提取 l 法律文书风控要素审核 l 新闻稿文字校对 l 政府补贴项目申请表内容核准 l …… l 更多场景可定制开发 文本挖掘的一些常见应用需求0 码力 | 46 页 | 25.61 MB | 1 年前3谭国富:深度学习在图像审核的应用
腾讯优图内容审核能力介绍 02 深度学习技术介绍 03 内容审核的扩展和延伸 00 图像审核的行业背景 SACC2017 内容审核 - 行业现状 不良信息泛滥,监管猝不及防 Ø 随着互联网的飞速发展和信息量的猛增, 大量的色情图片、暴力等不良信息夹杂其 中,严重影响着互联网的健康发展。 Ø 直播行业的快速兴起,使得视频中不良信 息含量更加迅猛增长,色情暴力等不雅视 频频繁流出,导致各网络直播平台面临危 极端主义、恐怖主义标识 SACC2017 内容识别 – 人脸识别 l 政治敏感人物识别, 直播, 视频等场景 Ø 上亿级别的人脸检索,秒级的检索速度从黑名 单,白名单数据库中返回目标人脸信息。 Ø 技术指标:优图人脸识别通过传统方法和深度 学习技术结合,以空间面孔墙和微众银行远程 核身为基础,在性能上达到LFW 99.80%。 Ø QQ,微云等: 非法设置领导人头像, 公众人 卡、车牌、名片等等多个垂直场景 l 证件类OCR识别 l 落地应用 Ø 手Q名片识别,广点通营业执照识别: 在手Q的扫一 扫入口中,可以体验。 Ø Webank身份证识别,主播实名认证: 方便用户快速 的输入证件信息。 SACC2017 OCR识别 – 通用场景和手写 Ø 手写体手机/电话识别准确率可达99%以上。突破业界复杂手写体 识别的难题。 Ø 通用场景准确率和召回率均在88%以上。 Ø 应用场景:快递单据,广告识别等。0 码力 | 32 页 | 5.17 MB | 1 年前3Chatbots 中对话式交互系统的分析与应用
DSTC3中定义的部分动作类别 语言理解 (SLU) Steve Young (2016) 状态追踪 Dialogue State Tracking (DST) • 对话状态应该包含持续对话所需要的各种信息 • DST问题:依据最新的系统和用户动作,更新对话状态 • Q:如何表示对话状态 状态追踪 (DST) 旧状态 用户动作 系统动作 新状态 策略优化 Dialogue Policy 降低产生“我不知道”这类答案的可能性 • 带来新的信息 • 让产生的答复与之前的不同 • 语义要连贯 • 加入互信息:同时考虑从answer到question的概率 Deep Reinforcement Learning for Dialogue Generation 闲聊机器人:其他因素 • 小心你的训练数据 • 如何引入上下文信息 • 如何加入外部信息 • 如何产生个性化答复 总结:三个Bot框架 深度定制对话服务 爱因互动 EIN+ • 为企业提供人工智能对话解决方案 • Conversation as a Service Bot应用场景 • 清晰的知识结构和边界 • 非标准化服务,信息不对称 • 能够通过数据积累提升服务质量 • 能够建立知识和技术壁垒 • 对话作为粘合剂 • 用户画像,推荐系统,营销转化 爱因互动:API in, API out 各路API,快速对接0 码力 | 39 页 | 2.24 MB | 1 年前3Keras: 基于 Python 的深度学习库
谁能确定它们讲述了什么故事?并不是所有人都能找 到。那里有两扇门,就是通往短暂的 Oneiroi 的通道;一个是用号角制造的,一个是 用象牙制造的。穿过尖锐的象牙的 Oneiroi 是诡计多端的,他们带有一些不会实现的 信息;那些穿过抛光的喇叭出来的人背后具有真理,对于看到他们的人来说是完成 的。” Homer, Odyssey 19. 562 ff (Shewring translation). 为什么选择 KERAS? add(Activation('relu')) 3.1.2 指定输入数据的尺寸 模型需要知道它所期望的输入的尺寸。出于这个原因,顺序模型中的第一层(只有第一层, 因为下面的层可以自动地推断尺寸)需要接收关于其输入尺寸的信息。有几种方法来做到这一 点: • 传递一个 input_shape 参数给第一层。它是一个表示尺寸的元组 (一个整数或 None 的元 组,其中 None 表示可能为任何正整数)。在 input_shape 的样本处理完成后,其内部状态(记忆)会被记录 并作为下一个 batch 的样本的初始状态。这允许处理更长的序列,同时保持计算复杂度的可控 性。 你可以在 FAQ 中查找更多关于 stateful RNNs 的信息。 from keras.models import Sequential from keras.layers import LSTM, Dense import numpy as np data_dim0 码力 | 257 页 | 1.19 MB | 1 年前3机器学习课程-温州大学-14深度学习-Vision Transformer (ViT)
) 2.模型介绍 11 将patch打平, 对每个 patch 进行线性映射,提取特征 2.模型介绍 12 提取特征 2.模型介绍 13 1.将位置编码信息加入提取的特征 2.模型介绍 14 位置编码信息对准确率的影响 2.模型介绍 结论:编码有用,但是怎么编码影响不大,干脆用简单的得了 2D(分别计算行和列的编码,然后求和)的效果还不如1D的每一层都加共享的 位置编码也没啥太大用 模型介绍 16 将 3) 的 结 果 喂 入 标 准 Transformer 的 encoder 中 作 者将类别作为一个可学习的 patch (?0)输入模型,与图像 的patch+pos 信息作为multi- head attention 的输入。 可以叠加多层encoder: 2.模型介绍 17 将encoder得到的结果 输入分类层 encoder 会输出多个上 下文向量,对于图像分 左图展示了模型学习到的图嵌入,中图展示了学习到的位置嵌入,右图展示了不同层注意 力的平均距离。 2.模型介绍 22 加入位置信息的原因 如下图所示,将左图的patch打乱,则两个图是不同的,但 对于Transformer的最后一层来说会得到相同的特征(认为是 一个图),为了让其能够识别是两个图,加入位置信息(使 两个图不一样)。 2.模型介绍 23 Patch 打平的具体做法 标准Transformer的输入是1D序列,对于图像0 码力 | 34 页 | 2.78 MB | 1 年前3机器学习课程-温州大学-11机器学习-降维
越大越好,模型的性能会随着特征的增加先上升后下降。 6 1.降维概述 什么是降维? 降维(Dimensionality Reduction)是将训练数据中的样本(实例)从高 维空间转换到低维空间,该过程与信息论中有损压缩概念密切相 关。同时要明白的,不存在完全无损的降维。 有很多种算法可以完成对原始数据的降维,在这些方法中,降维 是通过对原始数据的线性变换实现的。 7 1.降维概述 • 高维数据增加了运算的难度 PCA(主成分分析) 主成分分析(Principal Component Analysis,PCA)是一种降维方法, 通过将一个大的特征集转换成一个较小的特征集,这个特征集仍然包含 了原始数据中的大部分信息,从而降低了原始数据的维数。 减少一个数据集的特征数量自然是以牺牲准确性为代价的,但降维的诀 窍是用一点准确性换取简单性。因为更小的数据集更容易探索和可视化 ,并且对于机器学习算法来说,分析数据会更快、更容易,而不需要处 理额外的特征。 32 3.PCA(主成分分析) 原始指标的线性 组合 综合指标间不 相关,且方差 递减 第一主成分,第二主成分,… 第p主成分 选取前几个最大的主成分代替原来指标的 信息 尽可能多地找出相关 指标作为原始指标 主成分分析流程图: 33 3.PCA(主成分分析) • 1F 2F • • • • • • • • • •• • • • •0 码力 | 51 页 | 3.14 MB | 1 年前3
共 44 条
- 1
- 2
- 3
- 4
- 5