向量召回 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-09机器学习-支持向量机

2022年02月机器学习-支持向量机黄海广副教授 2 本章目录 01 支持向量机概述 02 线性可分支持向量机 03 线性支持向量机 04 线性不可分支持向量机 3 1.支持向量机概述 01 支持向量机概述 02 线性可分支持向量机 03 线性支持向量机 04 线性不可分支持向量机 4 1.支持向量机概述支持向量机（ classifier），其决策边界是对学习样本求解的最大边距超平面（ maximum-margin hyperplane）。与逻辑回归和神经网络相比，支持向量机，在学习复杂的非线性方程时提供了一种更为清晰，更加强大的方式。支持向量距离 5 1.支持向量机概述硬间隔、软间隔和非线性 SVM 假如数据是完全的线性可分的，那么学习到的模型可以称为硬间隔支持向量机。换个说法，硬间隔指的就是完全分类准确，不能存在分类错误的情况。软间隔，就是允许一定量的样本分类错误。软间隔硬间隔线性可分线性不可分 6 支持向量 1.支持向量机概述算法思想找到集合边缘上的若干数据（称为支持向量（Support Vector）），用这些点找出一个平面（称为决策面），使得支持向量到该平面的距离最大。距离 7 1.支持向量机概述背景知识任意超平面可以用下面这个线性方程来描述： ?T? + ? = 0

0 码力 | 29 页 | 1.51 MB | 1 年前
3
大模型时代下向量数据库的设计与应用

大模型时代下向量数据库的设计与应用个人简介目前在拓数派负责向量数据库PieCloudVector产品，聚焦于大模型与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验，在加入拓数派前曾就职于开源大数据平台Greenplum团队，担任外部数据源访问框架，对象存储访问扩展，ETL工具等产品模块的研发，并曾参与PostgreSQL多个版本的代码贡献，拥有丰富的存储模块核心邱培峰拓数派向量数据库负责人拓数派：大模型数据计算系统先行者 • 拓数派（ OpenPie）是立足于国内的基础数据计算领域高科技创新机构； • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团队； • 国内虚拟数仓和eMPP技术提出者，不断在数据计算引擎方向进行创新，全面拥抱AI技术趋势。目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • P 将辅助增强数据通过embedding过程转换为向量，加载到向量数据库中并做索引 • 对每个用户输入同样通过embedding过程得到向量，从向量数据库中搜索距离相近数据 • 将这些辅助数据与用户输入同时输入给大模型之后输出向量数据库 • embedding通过大模型将各种形式的数据转换成向量向量数据库 • 两个向量可以计算它们的距离（欧式，余弦/内积，曼哈顿等），距离越近，表示这两个物体越相似 • 向量搜索的基本问题：K-Nearest

0 码力 | 28 页 | 1.69 MB | 1 年前
3
2020美团技术年货算法篇

比赛冠军技术方案及在美团的实践 113 ICRA 2020 轨迹预测竞赛冠军的方法总结 132 KDD Cup 2020 AutoGraph 比赛冠军技术方案及在美团的实践 141 KDD Cup 2020 多模态召回比赛亚军方案与搜索业务应用 161 CIKM 2020 | 一文详解美团 6 篇精选论文 179 MT-BERT 在文本检索任务中的实践 192 美团无人车引擎在仿真中的实践 204 CenterMask 解读 215 WSDM Cup 2020 检索排序评测任务第一名经验总结 225 美团内部讲座｜清华大学莫一林：信息物理系统中的安全控制算法 235 KDD Cup 2020 多模态召回比赛季军方案与搜索业务应用 252 对话任务中的“语言 - 视觉”信息融合研究 267 ICDM 论文：探索跨会话信息感知的推荐模型 278 自然场景人脸检测技术实践 289 技术解析），训练模型是找出最合适的参数 abc。所谓特征，是其中的自变量 x1 与 x2，而模型预估，就是将给定的自变量 x1 与 x2 代入公式，求得一个解而已。（当然实际模型输出的结果可能会更加复杂，包括输出矩阵、向量等等，这里只是简单的举例说明。）所以在实际业务场景中，一个模型预估的过程可以分为两个简单的步骤：第一步，特征抽取（找出 x1 与 x2）；第二步，模型预估（执行公式 f，获得最终的结果）。

0 码力 | 317 页 | 16.57 MB | 1 年前
3
2022年美团技术年货合辑

次 KDD Cup&Kaggle 冠军的经验分享：从多领域优化到 AutoML 框架 37 图神经网络训练框架的实践和探索 66 图技术在美团外卖下的场景化应用及探索 83 大规模异构图召回在美团到店推荐广告的应用 102 美团搜索粗排优化的探索与实践 116 美团外卖推荐情境化智能流量分发的实践与探索 129 大众点评搜索相关性技术探索与实践 152 美团 SemEval2022 度、中心点距离、纵横比等因素来衡量两者之间的差距，从而指导网络最小化损失以提升回归精度，但是这些方法都没有考虑到预测框与目标框之间方向的匹配性。SIoU 损失函数通过引入了所需回归之间的向量角度，重新定义了距离损失，有效降低了回归的自由度，加快网络收敛，进一步提升了回归精度。通过在 YOLOv6s 上采用 SIoU loss 进行实验，对比 CIoU loss，平均检测精度提升中，还可以用图表示实体与实体间多样的关系。另一方面，深度学习技术在计算机视觉、自然语言处理、语音处理等领域均已取得了巨大的成功。深度学习技术将图像、文本、语音等多种多样的数据转化为稠密的向量表示，提供了表示数据的另一种方式。借助于硬件日益强大的计算能力，深度学习可以从海量数据中学习到数据之间复杂多样的相关性。这会让人不禁思考，深度学习能否应用到更广阔的领域，比如——图？事实上，早

0 码力 | 1356 页 | 45.90 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

模型验证离线训练实时训练模型训练模型部署在线服务离线验证在线发布在线验证在线一致性/ 模型稳定性/… 一键打包端口探测蓝绿部署/灰度发布 AUC/准确率/ 召回率/… 流量切换版本更新全量发布 … verson1 verson2 … kubenetes/olsubmit 模型库 3 在线机器学习-模型服务部署 • 模型评估 • 模型上线部署前指标评估 Wide&Deep；DeepFM 4 深度学习物料粗排特征向量化基于Item2vec的博主召回和微博召回物料精排向量索引 DSSM/FM/FF M生成博主与物料向量，采用向量进行召回特征向量化：Item2vec 向量索引：FM/FFM/ DSSM 模型召回：DIN/DIEN/TDM 模型召回融入用户近期互动行为的深度模型召回单目标：LR->W&D->FM->DeepFM 文本Embedding特征，相比于文本标签，相关指标提升约3+% • 基于word2vec、bert等生成embedding向量，提高了语义编码的准确性，降低了训练成本 • 指标提升主要来源于Embedding特征保留了更多原始信息，避免了标签带来的信息损失 • User/Item Embedding 协同召回 • Item2vec相比于传统协同过滤MF等，稀疏样本下表现极好 • 同时该特征可用于排序部分特征输入

0 码力 | 36 页 | 16.69 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

搭建起支持千亿级别规模的深度学习系统，与推荐、搜索、广告业务深度合作，在算法上提供从召回到排序的全系统优化方案，在工程上提供离线、近线、在线的全流程解决方案。目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型美团超大规模模型应用场景美团推荐美团搜索美团广告美团应用场景简介 • 场景特点 亿级的用户，千万级的O2O商品 海量的用户行为，完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈目录 • 美团超大规模模型场景简介美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型超大规模模型的有效性 • VC维理论  描述模型的学习能力：VC维越大模型越复杂，学习能力越强  机器学习能力 = 数据 + 特征 + 模型 • 数据  海量数据：美团的亿级用户、千万级POI • 特征  大规模离散特征 > 小规模泛化特征

0 码力 | 41 页 | 5.96 MB | 1 年前
3
Al原生数据库与RAG

张颖峰英飞流（上海）信息科技有限公司创始人目录 RAG技术实践 01 Infinity系统架构 02 RAG技术实践第一部分基于向量数据库的RAG解决方案文档文本块向量 VectorDB Embedding 向量相似度提问答案查询结果文本切分相关文本块提示词提示词模版对话机器人搜索推荐 Copilot Embedding模型 APIs 文档网站日志交易记录向量数据库 LLM 编排 Copilot RAG典型挑战和解决方案  挑战一：向量召回不准确  挑战四：幻觉、胡说八道  挑战五：定制化成本  挑战二：数据组织混乱丧失语义  挑战三：多样化查询需求  数据加工  数据库  文档结构识别  文字加工  多路召回  融合排序 RAG引擎工作流程文档格式转换跨模态文档抽取系统文档表格抽取系统规则引擎模型系统文档内容抽取文档格式解析 Prompt Template 提示模板 Recall 多路召回 Query 问题 Embedding 向量化 KnowledgeBase 知识库 ANN Parser Vector Index Full Text Index Cross Attentional Reranker

0 码力 | 25 页 | 4.48 MB | 1 年前
3
2.游戏战中陪伴助手微服务架构设计与应用

推荐系统接入——系统架构推荐系统: 向量化方案探索——资源点推荐针对具体场景开发 - 专利：《一种在游戏中离线挖掘、实时推荐资源点的方案》 - 大数据挖掘资源出现位置 - 左：配置文件 - 右：大数据挖掘 - 不足： - 太 bug 了，限制使用方案探索——聚类统计模仿大多数玩家的选择 - 实现方法： - 为玩家生成 [0, 1] 特征向量 - 聚类统计，存入 Faiss Faiss 匹配召回 - 问题： - 特征过多（600多维），无法分析 - 聚类结果趋同方案探索——关键帧 / 路径推荐模仿某一个玩家的选择 - 专利：《一种在实时游戏对局中，模仿历史胜利玩家打法，并对当前玩家进行打法推荐的方案》 - 发明点：序列截断、偏移算法、帧前进、…… - 思考： - 学习/模仿历史已吃鸡玩家的走位 - 历史玩家的状态，也可作为策略 - 通过特征向量匹配历史玩家 - 运营可闭环策略设计，开发无需介入方案详述——完整架构先对整个架构有一个大概的认识 - 消息队列消费：解耦 MQ - Token 清洗：事件翻译和 token 计算 - 推荐系统：策略召回和推荐 - 数据分析：离线策略挖掘和模型训练 - 管理平台：开发、运营、运维辅助实现方案——Token 清洗 Token 清洗服务完整流程 - 挑战：150+类 token，如何高内聚，降低

0 码力 | 47 页 | 11.10 MB | 1 年前
3
2024 中国开源开发者报告

Insight 2024 中国开源开发者报告重点聚焦大模型，本章节以大模型 LLM 开发技术栈作为切入点，将深入探讨以下中国 AI 大模型领域的代表性开源项目社区。这些开源项目社区覆盖了深度学习框架、向量数据库、AI辅助编程、LLM 应用开发框架、模型微调、推理优化、LLM Agent，以及检索增强生成（RAG）等多个关键技术栈。为了更全面客观地展示中国大模型 LLM 开发技术栈的开源社区生态，我们使用了 16 / 111 OSS Compass Insight 生产力-协作开发指数本部分图表仅用于数据展示，不涉及先后排名作为国内及业内领先的 AI 开发基础设施，本部分图表中的开发框架、向量数据库、开发平台、大模型均表现出色，代表着它们的代码提交频率、参与者、代码合并比率等协作开发工作保持着较高的水平。 17 / 111 OSS Compass Insight 本部分图表仅用于数据展示，不涉及先后排名 (EMQ) 市场&开发者社区总监一职。 2004 年，顾钧从北京大学计算机系本科毕业，其后在工商银行、IBM、摩根士丹利、华为和 Zilliz 等多家知名企业工作。曾联合发起全球首个开源向量数据库项目 Milvus，并帮助 Milvus 社区在两年间迅速拓展到两千家企业用户。 29 / 111 大模型撞上“算力墙”，超级应用的探寻之路文/傅聪近日，大模型教父 Sam Altman

0 码力 | 111 页 | 11.44 MB | 8 月前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

�推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结基于深度学习模型的推荐流程，场景与⽬标 Serving系统 HDFS 数据通道训练系统召回业务服务排序混排模型管理上线管理⽆量 RGW/Cos/ kafka 样本存储实时样本⽣成服务离线样本⽣成任务数据通道特征处理模型登记模型全量模型，TB级，低峰期（Cos存储）增量模型，GB级，20分钟（Cos存储）实时模型，KB级，秒（Kafka）分布式 Serving集群推理节点分布式 Serving集群推理节点召回索引服务业务服务 1. 获取⽤户向量 2. 向量召回异步刷库训练端⽣成⾼频参数集独⽴通道上线降低请求⽑刺 Feature 2.1: 短时间内只有部分参数被⽤到 Feature 2.2 Hotkey变化慢

0 码力 | 22 页 | 6.76 MB | 1 年前
3

共 246 条前往

页

分类

语言

格式