QCon北京2018-《深度学习在微博信息流排序的应用》-刘博
深度学习在微博Feed流应用实践 刘博 新浪微博机器学习研发部关系流算法负责人 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 微博Feed流产品介绍—排序场景 Ø 信息获取方式 • 主动获取(关注) Ø 内容形式 • 博文/文章/图片/视频/问答/话题/… • 被动获取(推荐) Ø 微博—社交媒体领跑者 • DAU:1.72亿,MAU:3 72亿,MAU:3.92亿 • 关注流基于关系链接用户与内容 微博Feed流特点介绍—排序原因 Ø 产品特点 • 传播性强 Ø 存在问题 • 信息过载 • 互动性好 • 信噪比低 Ø 排序目标 • 提高用户的信息消费效率 • 提升用户黏性 技术挑战 Ø 规模大 • 用户和Feed内容数量大 Ø 指标量化 • 用户体验 • 内容更新快,实时性要求高 • 内容形式多样、非结构化 内容形式多样、非结构化 • 海量计算、超大规模模型优化 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 CTR概要介绍 数据 特征 目标 模型 效果 Ø CTR任务特点 Ø CTR预估常用算法 • LR • GBDT • FM • 大量离散特征、高维稀疏 • 特征关联性挖掘 CTR一般流程 业务目标与模型选择 Ø 模型优化目标 •0 码力 | 21 页 | 2.14 MB | 1 年前3机器学习课程-温州大学-06深度学习-优化算法
1 2023年04月 深度学习-优化算法 黄海广 副教授 2 01 小批量梯度下降 本章目录 02 优化算法 03 超参数调整和BatchNorm 04 Softmax 3 01 小批量梯度下降 02 优化算法 03 超参数调整和BatchNorm 04 Softmax 1.小批量梯度下降 4 小批量梯度下降 小批量梯度下降(Mini-Batch (?) ?? (?) (同步更新?? ,(j=0,1,...,n )) 5 小批量梯度下降 6 01 小批量梯度下降 02 优化算法 03 超参数调整和BatchNorm 04 Softmax 2.优化算法 7 伦敦温度的例子 days temperature ?1 = 40°F ?2 = 49°F ?3 = 45°F ... ?180 = 60°F (1 − ?)??, ?: = ? − ????, ?: = ? − ????, 这样就可以减缓梯度下降的 幅度。 通常情况下:? = 0.9 11 RMSprop 在第?次迭代中,该算法会照常计算当下mini-batch的微分??,??,所以我会 保留这个指数加权平均数,我们用到新符号??? ,而不是??? ,因此??? = ???? + (1 − ?)??2,澄清一下,这个平方的操作是针对这一整个符号的,这样做0 码力 | 31 页 | 2.03 MB | 1 年前3机器学习课程-温州大学-06机器学习-KNN算法
1 2021年04月 机器学习-KNN算法 黄海广 副教授 2 01 距离度量 02 KNN算法 本章目录 03 KD树划分 04 KD树搜索 3 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 1.距离度量 4 距离度量 欧氏距离(Euclidean distance) ? ?, ? = =1 ? ( ??)2 10 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 2.KNN算法 11 2.KNN算法 ?近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是最简单的机器学习算 法,可以用于基本的分类与回归方法。 算法的主要思路: 如果一个样本在特征空间中与?个实例最为相似(即特征空间中最邻近),那么这 个最近邻的训练样本标签值的均值作为预 测值。 12 2.KNN算法 ?近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是 最简单的机器学习算法,可以用于基本的分类与回归方法。 ?近邻法的三要素: • ?值选择。 • 距离度量。 • 决策规则。 13 2.KNN算法 算法流程如下: 1.计算测试对象到训练集中每个对象的距离 2.按照距离的远近排序 3.选取与当前测试对象最近的k的训练对象,0 码力 | 26 页 | 1.60 MB | 1 年前3房源质量打分中深度学习应用及算法优化-周玉驰
2019 KE.COM ALL COPYRIGHTS RESERVED 1 周玉驰 贝壳找房 - 数据智能中心 - 策略算法部 AI选房中深度学习的实践及优化 2019 KE.COM ALL COPYRIGHTS RESERVED 2 2019 KE.COM ALL COPYRIGHTS RESERVED 2 2019 KE.COM ALL COPYRIGHTS RESERVED 3 自我介绍 周玉驰 硕士毕业于中科院 先后就职于华为,百度和医渡云 目前就职于贝壳找房 主要负责两个方向 房源策略算法 房客人关系图谱 扫一扫二维码图案,加我微信 2019 KE.COM ALL COPYRIGHTS RESERVED 4 目录 为什么要做AI选房 如何做AI选房 模型演变历程 实践应用 总结&思考 2019 • 选房成本高 • 选房带有主观性 • 无法盘点所有房源质量 存在问题 人工选房流程 2019 KE.COM ALL COPYRIGHTS RESERVED 9 AI选房本质上是TopN排序问题 2019 KE.COM ALL COPYRIGHTS RESERVED 10 AI选房 - 房源质量打分 好房定义 AI选房建模 Y = f (X) Y:未来?天能否成交0 码力 | 48 页 | 3.75 MB | 1 年前3经典算法与人工智能在外卖物流调度中的应用
经典算法与深度学习 在外卖物流调度中的应用 SPEAKER / 徐明泉 百度外卖首席架构师 引言:外卖配送的背后 2 引言:外卖订单调度系统要考虑的因素 3 订单相关 骑士相关 • 商户、用户位置 • 用户期望时间 • 预计出餐时间.. • 现有订单的配送路线 • 新增订单后配送路线的改变情况 • 历史取送餐速度 • 完成每个订单的预计时间 • 熟悉的区域 • 配送工具 调度 系统 1.0 外卖订单智能调度要解决的核心问题 7 调度系统算法 1 2 3 4 5 路线规划 • 动态规划最优配送路线,且合理 并单,以最低的配送成本最大化 满足用户配送体验。 • 考虑用户期望时间的TSP问题 • 构建模型综合评估用户体验与配 送成本打分 • 采用动态规划和模拟退火算法等 算法,求得最优路线 1 8 时间预估 用户下单 开始配送 骑士到店 数据,DNN 更好地学习自身有用的特征 - DNN对特征工程要求较低,自身可以学习有用的特征,PCA降维影响较小,但时间复杂度较高 • XGBoost模型 - 采用近似求解算法,找出可能的分裂点,避免选用贪心算法的过高时间复杂度 - 计算采用不同分裂点时,叶子打分函数的增益;并选择增益最高的分裂点,作为新迭代树的最终分裂 节点,构造新的迭代树 - 通过调节迭代树数目、学习倍率、迭代树0 码力 | 28 页 | 6.86 MB | 1 年前3微博在线机器学习和深度学习实践-黄波
DeepFM等模型 3.支持SGD 、 FTRL 、 Adagrad等优化算法 模型评估 1.独立模型评估 2.配置化 3.UI展示 3 在线机器学习-实时模型训练 • 模型选择 • LR : 基础模型,对特征工程依赖较强 • FM:大规模稀疏数据下的特征组合问题 • DeepFM • 优化算法选择 • FTRL:调节学习率,突出低频特征,非batch优化 • Adagrad 单目标:LR->W&D->FM->DeepFM 多目标:点击FM+互动FM 排序损失:DeepFM+Pair-Wise Rank Loss 多目标 融合点击模型和 互动模型 单目标 LR、W&D、 FM和DeepFM 等模型排序 排序损失 针对信息流业务场景,从 点击损失升级到排序损 失,基础模型为 DeepFM,排序损失为 BPR 召 回 排 序 • 深度学习模型训练:WeiLearn NLP 图片视频 VGG Yolo inception resnet GRU LSTM Wide&Deep DeepFM Deep Cross Network Spark 超参数 资源 算法 BERT 配置 Tensorflow 4 深度学习-深度学习模型训练 • 通信优化 • PS:BSP/SSP/ASP多种通信模式支持 • MPI&RingAllreduce:Horovod,使用0 码力 | 36 页 | 16.69 MB | 1 年前3机器学习课程-温州大学-08机器学习-集成学习
机器学习-集成学习 黄海广 副教授 2 本章目录 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 3 1.集成学习方法概述 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 4 Bagging 从训练集中进行子抽样组成每 。 测试 数据 7 Random Forest(随机森林) 用随机的方式建立一个森林。随机森林算法由很多决策树组成,每一棵决 策树之间没有关联。建立完森林后,当有新样本进入时,每棵决策树都会 分别进行判断,然后基于投票法给出分类结果。 优点 1. 在数据集上表现良好,相对于其他算法有较大的优势 2. 易于并行化,在大数据集上有很大的优势; 3. 能够处理高维度数据,不用做特征选择。 数据集 自助采样 自助采样 自助采样 Bootstraping 10 2.AdaBoost和GBDT算法 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 11 AdaBoost算法 AdaBoost(Adaptive Boosting,自适应增强),其自适应在于:前 一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来0 码力 | 50 页 | 2.03 MB | 1 年前3机器学习课程-温州大学-07机器学习-决策树
2023年06月 机器学习-决策树 黄海广 副教授 2 本章目录 01 决策树原理 02 ID3算法 03 C4.5算法 04 CART算法 3 1.决策树原理 01 决策树原理 02 ID3算法 03 C4.5算法 04 CART算法 4 长相 能 帅 不帅 家庭背景 好 能 不好 人品 好 上进心 能 不能 有 无 不能 (代表测试结果) 叶节点 (leaf node) (代表分类后所获得的分类标记) ⚫ 决策树算法是一种归纳分类算法 ,它通过对训练集的学习,挖掘 出有用的规则,用于对新数据进 行预测。 ⚫ 决策树算法属于监督学习方法。 ⚫ 决策树归纳的基本算法是贪心算法 ,自顶向下来构建决策树。 ⚫ 贪心算法:在每一步选择中都采取 在当前状态下最好/优的选择。 ⚫ 在决策树的生成过程中,分割方法 减少变量的数目提供参考。 缺点: ⚫ 容易造成过拟合,需要采用剪枝操作。 ⚫ 忽略了数据之间的相关性。 ⚫ 对于各类别样本数量不一致的数据,信息增益会偏向于那些更多数值的特 征。 决策树的特点 7 算法 支持模型 树结构 特征选择 连续值处理 缺失值处理 剪枝 特征属性多次使用 ID3 分类 多叉树 信息增益 不支持 不支持 不支持 不支持 C4.5 分类 多叉树 信息增益率 支持 支持 支持0 码力 | 39 页 | 1.84 MB | 1 年前3Qcon北京2018-《深度学习在视频搜索领域的实践》-刘尚堃pdf
��������������� ������� 目录 1、视频搜索的挑战 %、深度学m在视频内容理解h的应用——召回 3、深度学m在语k搜索h的应用——语k表征 4、深度学m在排序h的应用——g性化表征 视频搜索的挑战 1�����/���——���� 2����/�����——���� 3������——������ ��������������� 1������������ pu/行i检测技术 • 目的a给定e定长视频,定x感兴趣行i发生的时间段并给出 对应行i类标 • 方法a采取1QPvQNuVLQP 32+5DVHG >HFuTTHPV APLVU 5>A) 算法,结合SLPgNH ShQV 2HVHFVQT SS2)框架实现行i检测功 能 • 效果a • THA9OS 14数据集,O/P-%4.1% 7QA-0.() 内容理解——pu/行i检测 化b跟踪采用214框架,结合颜色模型,并使用0/14进行 候选区域扩充 • 效果a • 检测算法在HQNNywQQG HHDG数据集,O/P-80.41%, 高过VhH UVDVH-QI-DTV ).)%b • 0TDLPwDUh数据集,O/P-88.4)%,高过VhH UVDVH-QI- DTV 10.(%。 • 跟踪算法在T0-100评测集,在实时速度d,RTHFLULQP 和UuFFHUU TDVH效果最好0 码力 | 24 页 | 9.60 MB | 1 年前3机器学习课程-温州大学-12机器学习-关联规则
机器学习-第十一章 关联规则 黄海广 副教授 2 本章目录 01 关联规则概述 02 Apriori 算法 03 FP-Growth算法 3 1.关联规则概述 01 关联规则概述 02 Apriori 算法 03 FP-Growth算法 4 1.关联规则概述 关联规则 关联规则(Association Rules)反映一个事物与其他事物之间的相互依存 商品B也被客户挑选的机会就被发现了。 5 1.关联规则概述 有没有发生过这样的事:你出去买东西, 结果却买了比你计划的多得多的东西?这 是一种被称为冲动购买的现象,大型零售 商利用机器学习和Apriori算法,让我们倾 向于购买更多的商品。 6 1.关联规则概述 购物车分析是大型超市用来揭示商品之间关联的关 键技术之一。他们试图找出不同物品和产品之间的 关联,这些物品和产品可以一起销售,这有助于正 ) ? =3/4 9 2.Apriori算法 01 关联规则概述 02 Apriori 算法 03 FP-Growth算法 10 2.Apriori算法 Apriori算法利用频繁项集生成关联规则。它基于频繁项集的子集也 必须是频繁项集的概念。 频繁项集是支持值大于阈值(support)的项集。 Apriori算法就是基于一个先验: 如果某个项集是频繁的,那么它的所有子集也是频繁的。0 码力 | 49 页 | 1.41 MB | 1 年前3
共 59 条
- 1
- 2
- 3
- 4
- 5
- 6