向量召回 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-09机器学习-支持向量机

2022年02月机器学习-支持向量机黄海广副教授 2 本章目录 01 支持向量机概述 02 线性可分支持向量机 03 线性支持向量机 04 线性不可分支持向量机 3 1.支持向量机概述 01 支持向量机概述 02 线性可分支持向量机 03 线性支持向量机 04 线性不可分支持向量机 4 1.支持向量机概述支持向量机（ classifier），其决策边界是对学习样本求解的最大边距超平面（ maximum-margin hyperplane）。与逻辑回归和神经网络相比，支持向量机，在学习复杂的非线性方程时提供了一种更为清晰，更加强大的方式。支持向量距离 5 1.支持向量机概述硬间隔、软间隔和非线性 SVM 假如数据是完全的线性可分的，那么学习到的模型可以称为硬间隔支持向量机。换个说法，硬间隔指的就是完全分类准确，不能存在分类错误的情况。软间隔，就是允许一定量的样本分类错误。软间隔硬间隔线性可分线性不可分 6 支持向量 1.支持向量机概述算法思想找到集合边缘上的若干数据（称为支持向量（Support Vector）），用这些点找出一个平面（称为决策面），使得支持向量到该平面的距离最大。距离 7 1.支持向量机概述背景知识任意超平面可以用下面这个线性方程来描述： ?T? + ? = 0

0 码力 | 29 页 | 1.51 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

模型验证离线训练实时训练模型训练模型部署在线服务离线验证在线发布在线验证在线一致性/ 模型稳定性/… 一键打包端口探测蓝绿部署/灰度发布 AUC/准确率/ 召回率/… 流量切换版本更新全量发布 … verson1 verson2 … kubenetes/olsubmit 模型库 3 在线机器学习-模型服务部署 • 模型评估 • 模型上线部署前指标评估 Wide&Deep；DeepFM 4 深度学习物料粗排特征向量化基于Item2vec的博主召回和微博召回物料精排向量索引 DSSM/FM/FF M生成博主与物料向量，采用向量进行召回特征向量化：Item2vec 向量索引：FM/FFM/ DSSM 模型召回：DIN/DIEN/TDM 模型召回融入用户近期互动行为的深度模型召回单目标：LR->W&D->FM->DeepFM 文本Embedding特征，相比于文本标签，相关指标提升约3+% • 基于word2vec、bert等生成embedding向量，提高了语义编码的准确性，降低了训练成本 • 指标提升主要来源于Embedding特征保留了更多原始信息，避免了标签带来的信息损失 • User/Item Embedding 协同召回 • Item2vec相比于传统协同过滤MF等，稀疏样本下表现极好 • 同时该特征可用于排序部分特征输入

0 码力 | 36 页 | 16.69 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

搭建起支持千亿级别规模的深度学习系统，与推荐、搜索、广告业务深度合作，在算法上提供从召回到排序的全系统优化方案，在工程上提供离线、近线、在线的全流程解决方案。目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型美团超大规模模型应用场景美团推荐美团搜索美团广告美团应用场景简介 • 场景特点 亿级的用户，千万级的O2O商品 海量的用户行为，完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈目录 • 美团超大规模模型场景简介美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型超大规模模型的有效性 • VC维理论  描述模型的学习能力：VC维越大模型越复杂，学习能力越强  机器学习能力 = 数据 + 特征 + 模型 • 数据  海量数据：美团的亿级用户、千万级POI • 特征  大规模离散特征 > 小规模泛化特征

0 码力 | 41 页 | 5.96 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

�推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结基于深度学习模型的推荐流程，场景与⽬标 Serving系统 HDFS 数据通道训练系统召回业务服务排序混排模型管理上线管理⽆量 RGW/Cos/ kafka 样本存储实时样本⽣成服务离线样本⽣成任务数据通道特征处理模型登记模型全量模型，TB级，低峰期（Cos存储）增量模型，GB级，20分钟（Cos存储）实时模型，KB级，秒（Kafka）分布式 Serving集群推理节点分布式 Serving集群推理节点召回索引服务业务服务 1. 获取⽤户向量 2. 向量召回异步刷库训练端⽣成⾼频参数集独⽴通道上线降低请求⽑刺 Feature 2.1: 短时间内只有部分参数被⽤到 Feature 2.2 Hotkey变化慢

0 码力 | 22 页 | 6.76 MB | 1 年前
3
阿里云上深度学习建模实践-程孟力

要求:  准确: 低噪声  全面: 同分布模型选型:  容量大  计算量小训练推理:  高qps, 低rt  支持超大模型  性价比流程长、环节多:  推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动  实人认证: 卡证识别 + 人脸检测 + 活体检测 + 人脸识别 … 模型构建: 问题: ✗ 方案复杂周期长/见效慢 ✗ 细节多难免踩坑 PAI-Rec – 推荐引擎 BE召回/Hologres hot x2i vec 排序粗排精排重排 MaxCompute Datahub 离线特征样本构造实时特征 Flink 训练数据推荐日志模型发布在线流程离线流程智能推荐解决方案 > PAI-REC 推荐引擎 PAI-REC 推荐引擎多路召回曝光/状态过滤粗排/精排策略[类目打散、流量控制、…] PAI-REC平台自动化降级负载均衡灰度发布超时控制平台支持日志SLS 在线存储 Hologres/OTS BE Redis 读取数据向量引擎 BE/Hologres/Faiss/Milvus 向量检索冷启动召回冷启动排序 Pipeline1 Pipeline2 标准化: Standard Solutions 标准化: Standard Solutions

0 码力 | 40 页 | 8.51 MB | 1 年前
3
机器学习课程-温州大学-05机器学习-机器学习实践

混淆矩阵（confusion_matrix）评价指标准确率 Accuracy = TP + TN TP + TN + FP + FN 精确率 Precision = TP TP + FP 召回率 Recall = TP TP + FN F1 score F1 = 2 × Precision × Recall Precision + Recall 11 评价指标有100张照片 =70/100=0.7 精度（Precision）=TP/(TP+ FP) TP=40，TP+ FP=50。 Precision =40/50=0.8 召回率（Recall）=TP/(TP+ FN) TP=40，TP+FN =60。则召回率为： Recall =40/60=0.67 项目符号猫狗的例子识别出的正例 TP+FP 40+10=50 识别出的负例 TN+FN 30+20=50 正则化能降低参数范数的总和。 ??正则化给出的最优解w*是使解更加靠近某些轴,而其它的轴则为0,所以??正则化能使得到的参数稀疏化。 ??正则化是指在损失函数中加入权值向量w的绝对值之和， ??的功能是使权重稀疏在损失函数中加入权值向量w的平方和，??的功能是使权重平滑。 25 正则化 x[2] x[3] x[1] a[L] DropOut Dropout的功能类似于?2正则化，与

0 码力 | 33 页 | 2.14 MB | 1 年前
3
深度学习在电子商务中的应用

来预测词语本身出现的概率 Skip-gram: 通过词语本身来预测上下文词语出现的概率 10 基于词语聚类的矢量化模型 • Word2vec等工具可以有效地将词语转化为向量 • 将句子／段落／文章有效转化为向量则有很大的挑战。  简单平均／加权平均容易失去句子等的语义／结构信息  直接以句子为单位进行训练，则训练文本严重不足 • 电商搜索中遇到的主要是句子／短文分析，可以将短文中的词语聚类， • 传统聚类（如Kmeans)在几何距离的基础上进行聚类，效果不好。利用随机过程做词语聚类可以解决这一问题 11 具体的生成cluster的流程如图： V[i]: 为产品信息里每个词的词语向量(word vector)分数 C[i]: 为聚类(cluster)的vector分数 N: 为cluster的数目 Sim(I, j): 词语i 与cluster j的余弦相似度 Random: 生成一个0 的矢量产品类别过滤产品频率过滤矢量转换回商品 14 原型评测结果矢量化搜索引擎与易购传统引擎搜索效果对比（2016-07-25测试结果） 15 • 该技术不仅召回与搜索词完全匹配的结果，还可召回与搜索词文本不匹配、但含义近似的结果。效果示例如：经测评，当搜索词为“松下筒灯”，易购网站返回6个相关结果，美研方案返回64个相关结果现有方案原型系统 16 • 首先进行词语的矢量化

0 码力 | 27 页 | 1.98 MB | 1 年前
3
《TensorFlow 2项目进阶实战》4-商品检测篇：使用RetinaNet瞄准你的货架商品

(IoU) Bounding Box Ground Truth ??? = ???????????? ????? = Bounding Box Ground Truth 目标检测评估：准确率与召回率（以GT为中心）目标检测评估：mean Average Precision（mAP）基础：深度学习在目标检测的应用目标检测近20年发展 Ref: Zou, Z., Shi, Z., Guo Faster R-CNN 理论：YOLO系列一阶段模型概述 YOLO 与 RCNN 系列对比 YOLOv1：首个深度学习的一阶段检测器 YOLOv1：首个深度学习的一阶段检测器 YOLO输出向量：S x S x (B * 5 + C) YOLOv1：首个深度学习的一阶段检测器 YOLO检测网络包括24个卷积层和2个全连接层，如下图所示。 7 x 7 x (2 * 5 + 20) YOLOv1

0 码力 | 67 页 | 21.59 MB | 1 年前
3
《TensorFlow 快速入门与实战》4-实战TensorFlow房价预测

Regression） • 决策树（Decision Tree） • 随机森林（Random Forest） • 最近邻算法（k-NN） • 朴素贝叶斯（Naive Bayes） • 支持向量机（SVM） • 感知器（Perceptron） • 深度神经网络（DNN）前置知识：线性回归在统计学中，线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关看数据集分布情况。在模型设计过程中，用户往往需要分析和检查数据流图是否正确实现。在模型训练过程中，用户也常常需要关注模型参数和超参数变化趋势。在模型测试过程中，用户也往往需要查看准确率和召回率等评估指标。因此，TensorFlow 项目组开发了机器学习可视化工具 TensorBoard ，它通过展示直观的图形，能够有效地辅助机器学习程序的开发者和使用者理解算法模型及其工作流程，提升模型开发工作效率。

0 码力 | 46 页 | 5.71 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

11.7 RNN 短时记忆 11.8 LSTM 原理 11.9 LSTM 层使用方法 11.10 GRU 简介 11.11 LSTM/GRU 情感分类问题再战 11.12 预训练的词向量 11.13 参考文献第 12 章自编码器 12.1 自编码器原理 12.2 MNIST 图片重建实战 12.3 自编码器变种 12.4 变分自编码器 12.5 ?，其中??代表模型函数，?为模型的参数。在训练时，通过计算模型的预测值??(?)与真实标签?之间的误差来优化网络参数?，使得网络下一次能够预测更精准。常见的有监督学习有线性回归、逻辑回归、支持向量机、随机森林等。无监督学习收集带标签的数据往往代价较为昂贵，对于只有样本?的数据集，算法需要自行发现数据的模态，这种方式叫作无监督学习。无监督学习中有一类算法将自身作为监督信号，即模型需要学习的映射为 LSTM 被 Jürgen Schmidhuber 提出；同年双向循环神经网络也被提出。遗憾的是，神经网络的研究随着以支持向量机(Support Vector Machine，简称 SVM)为代表的传统机器学习算法兴起而逐渐进入低谷，称为人工智能的第二次寒冬。支持向量机拥有严格的理论基础，训练需要的样本数量较少，同时也具有良好的泛化能力，相比之下，神经网络理论基础欠缺，可解释性差，很难训练深层网络，性能也相对一般。图

0 码力 | 439 页 | 29.91 MB | 1 年前
3

共 49 条前往

页

分类

语言

格式

机器学习课程-温州大学-09机器学习-支持向量机

微博在线机器学习和深度学习实践-黄波

超大规模深度学习在美团的应用-余建平

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

阿里云上深度学习建模实践-程孟力

机器学习课程-温州大学-05机器学习-机器学习实践

深度学习在电子商务中的应用

《TensorFlow 2项目进阶实战》4-商品检测篇：使用RetinaNet瞄准你的货架商品

《TensorFlow 快速入门与实战》4-实战TensorFlow房价预测

【PyTorch深度学习-龙龙老师】-测试版202112