TensorFlow on Yarn:深度学习遇上大数据
深度学习 + 大数据 TensorFlow on Yarn 李远策 2017年4月17日 内容大纲 Ø TensorFlow使用现状及痛点� Ø TensorFlow on Yarn设计� Ø TensorFlow on Yarn技术细节揭秘� Ø 深度学习平台演进及SparkFlow介绍� 背景 坐标:360-系统部-⼤数据团队� 专业:Yarn、Spark、MR、HDFS 专业:Yarn、Spark、MR、HDFS …� 挑战:深度学习空前⽕爆,各种深度学习框架层出不穷,业务部门 拥抱新兴技术。平台怎么应对?� 机遇:Maybe 深度学习 + ⼤数据 � � TensorFlow使用现状及痛点 场景(1)� 场景(2)� TensorFlow使用现状及痛点 !.train.ClusterSpec({ “worker”: [ “worker0.example ⼿动拉取训练模型� TensorFlow使用现状及痛点 • 多⼈多服务器使用混乱,计算资源如何划分?� • 没有GPUs集群资源管理和调度(内存、CPU、GPU、 端⼝),集群资源负载不均� • 训练数据⼿动分发,训练模型⼿动保存� • 进程遗留问题,需要⼿动杀死� • 缺乏作业统⼀管理,不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结:� TensorFlow使用现状及痛点 •0 码力 | 32 页 | 4.06 MB | 1 年前3数据增强
数据增强 主讲人:龙良曲 Big Data ▪ The key to prevent Overfitting Sample more data? Limited Data ▪ Small network capacity ▪ Regularization ▪ Data argumentation Recap Data argumentation ▪ Flip ▪ Rotate0 码力 | 18 页 | 1.56 MB | 1 年前3构建基于富媒体大数据的弹性深度学习计算平台
构建基于富媒体大数据的弹性深度学 习计算平台 SPEAKER / 土土@七牛 AtLab Mobile —> 富媒体时代 数据存储 数据加速 数据处理 直播 点播 Connect 每天超过10亿图像上传 超过万亿小时的音视频存储 What are they? 内容审核团队 运营分析团队 AI? Content 分类 检测 分割 跟踪 描述 搜索 分析 … … 连接 智能 人工智能 = 大数据 + 机器学习 Ataraxia AI Lab (AtLab) 色情 0.01 性感 0.98 正常 0.01 特征 id1 戴眼镜 性别:男 年龄:33 场景:户外/景点/雪山 审查: 非色情 非暴力 很健康 颜值: ?? “C罗正在带球突破,后有球员追堵” 场景一 00:00:00-00:01:05 描述:事件1-XXXX 事件2-XXXX 事件2-XXXX 人物出现:id1, id2 场景二 … 用户行 为 用户数 据 推理结 果 推理服务 数据抽样 和整理 样本 训练 模型 模型评估 AVA深度学习平台 Caching IO Distributed System Docker Orchestration Storage HDFS SQL NoSQL Caffe MXNet Tensorflow Data0 码力 | 21 页 | 1.71 MB | 1 年前3基本数据类型
基本数据类型 主讲人:龙良曲 All is about Tensor python PyTorch Int IntTensor of size() float FloatTensor of size() Int array IntTensor of size [d1, d2 ,…] Float array FloatTensor of size [d1, d2, …] string0 码力 | 16 页 | 1.09 MB | 1 年前3迁移学习-自定义数据集实战
自定义数据集实战 主讲:龙良曲 Pokemon Go! Pokemon Dataset https://www.pyimagesearch.com/2018/04/16/keras-and-convolutional-neural-networks-cnns/ Download ▪ 链接: https://pan.baidu.com/s/1V_ZJ7ufjUUFZwD2NHSNMFw0 码力 | 16 页 | 719.15 KB | 1 年前3杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用
PYCON CHINA 基于深度学习的多维时间序列 预测在数据机房中的应用 目 录 1 背景介绍 2 研究目标 3 研究内容 4 后续工作 1. 背景介绍 数据机房面临的能耗问题 数据机房面临电量消耗巨大的问题 空调是数据机房中电量消耗最大的设备 空调为什么那么耗电?怎么优化节能? 低效的 冷却装 置 服务主 机工作 发热 影响空 调耗电 量原因 建筑材料 隔热和散 的全面感知 空调对温度的控制 存在延迟 多 维 感 知 温 度 预 测 控 制 2. 研究目标 对数据机房的温度进行预测 ⚫ 根据机房的历史运行数据变化预测未来 XX 分钟机房的温度值,从而实现空调的预测控制。 风机状态 服务负载 天气状况 室外温度 室外湿度 门禁状态 时序数据 温度预测 预测控制 节能调节 3. 研究内容 ⚫ 时间序列预测方法的比较 传统时间序列预测 ⚫ 混合多维时间序列预测 ⚫ 提取多维序列之间更加复杂 的关系 ⚫ 提取维度之间空间依赖关系, 长短期依赖关系 ⚫ 算法有LSTNet,TPA-LSTM 多维时间序列预测方法解决机房温度预测 对数据包含的信息提取能力越来越强 选择 LSTNet 作为温度预测建模算法 ⚫ Convolutional Layer 捕捉时间维度上的短期依赖和维度之间的空间依赖关系 ⚫ Recurrent and0 码力 | 17 页 | 2.49 MB | 1 年前3机器学习课程-温州大学-时间序列总结
固定频率的时间序列 03 时间周期及计算 04 重采样 05 数据统计—滑动窗口 06 时序模型—ARIMA 4 1.时间序列的基本操作 01 时间序列的基本操作 02 固定频率的时间序列 03 时间周期及计算 04 重采样 05 数据统计—滑动窗口 06 时序模型—ARIMA 5 问题 思考: 什么是时间序列? 6 时间序列的概念 时间序列的概念 时间序列是指多个时间点上形成的数值序列,它既可 以是定期出现的,也可以是不定期出现的。 7 时间序列的数据种类 时间序列的数据主要有以下几种: 时间戳 表示特定的时刻 ,比如现在 时期 比如2018年或者 2018年10月 时间间隔 由起始时间戳和 结束时间戳表示 8 创建时间序列 Pandas中,时间戳使用Timestamp(Series派生的子 类)对象表示。 index=date_list) 13 通过时间戳索引选取子集 最简单的选取子集的方式,是直接使用位置 索引来获取具体的数据。 # 根据位置索引获取数据 time_se[3] 14 通过时间戳索引选取子集 还可以使用datetime构建的日期获取其对应 的数据。 date_time = datetime(2015, 6, 1) date_se[date_time] 15 通过时间戳索引选取子集0 码力 | 67 页 | 1.30 MB | 1 年前3房源质量打分中深度学习应用及算法优化-周玉驰
2019 KE.COM ALL COPYRIGHTS RESERVED 1 周玉驰 贝壳找房 - 数据智能中心 - 策略算法部 AI选房中深度学习的实践及优化 2019 KE.COM ALL COPYRIGHTS RESERVED 2 2019 KE.COM ALL COPYRIGHTS RESERVED 2 2019 KE.COM ALL COPYRIGHTS RESERVED 3 初版模型系统概览 • 房源特征 静态特征 时序特征 • 特征处理 特征提取 特征组合 离散化 • 模型预测 XGBoost • 分数映射 房源质量分数 M 2019 KE.COM ALL COPYRIGHTS RESERVED 17 房源特征 6大方向设计了90维特征 静态特征:69维 时序特征:21维 一套房源能否成交同很多因素相关 一套房源能否成交同很多因素相关 客源 17维 性价比 9维 业主 14维 市场 12维 经纪人 9维 基本属性 29维 成交 2019 KE.COM ALL COPYRIGHTS RESERVED 18 时序特征提取 0 5 10 15 20 25 30 20181001 20181002 20181003 20181004 20181005 20181006 20181007 201810080 码力 | 48 页 | 3.75 MB | 1 年前3Keras: 基于 Python 的深度学习库
. . 8 3.1.1 开始使用 Keras 顺序 (Sequential) 模型 . . . . . . . . . . . . . . . . . . . . . 8 3.1.2 指定输入数据的尺寸 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.1.3 编译 . . . . . . . . . . . . . . . 26 3.3.4 如何在多 GPU 上运行 Keras 模型? . . . . . . . . . . . . . . . . . . . . . . . 27 3.3.4.1 数据并行 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.3.4.2 设备并行 . . . . . . . . 3.8 如何获取中间层的输出? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.3.9 如何用 Keras 处理超过内存的数据集? . . . . . . . . . . . . . . . . . . . . 32 3.3.10 在验证集的误差不再下降时,如何中断训练? . . . . . . . . . . . .0 码力 | 257 页 | 1.19 MB | 1 年前3QCon2018北京-基于深度学习的视频结构化实践-姚唐仁
• 围绕海量数据提供创新的云服务,帮助客户缩短想法到产品的距离 • 创立6年,每年超过300%的业绩增长 • 已完成5轮融资,累计超过20亿 • 长期服务70多万企业用户和开发者 • 文件数超过2000亿,每日新增文件20亿 • 覆盖全球300个节点 • 覆盖金融、公安、广电媒体、互联网等行业 • 国内领先的云计算厂商 关于七牛云 智能多媒体服务 数据洞察 机器学习 机器学习 内容生产者 内容消费者 内容采集 (上传加速) 内容分发 海量存储 海量富媒体数据的业务布局 视觉智能 Vision Intelligence 数据智能 Data Intelligence 海量存储 ���� ���� ���� 弹性计算 ��� ��� 智能网络 API �� �� CDN ��� ������� ��� ������ �� �� �� �� �� ������ ������ ����� ���� ���� ������ ���� ���� ���� ���� ���� 视频结构化视图 视频的时序关联性 视频的阶段性0 码力 | 39 页 | 38.01 MB | 1 年前3
共 74 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8