机器学习课程-温州大学-09机器学习-支持向量机
2022年02月 机器学习-支持向量机 黄海广 副教授 2 本章目录 01 支持向量机概述 02 线性可分支持向量机 03 线性支持向量机 04 线性不可分支持向量机 3 1.支持向量机概述 01 支持向量机概述 02 线性可分支持向量机 03 线性支持向量机 04 线性不可分支持向量机 4 1.支持向量机概述 支 持 向 量 机 ( classifier),其决 策边界是对学习样本求解的最大边距超平面( maximum-margin hyperplane) 。 与逻辑回归和神经网络相比,支持向量机,在学 习复杂的非线性方程时提供了一种更为清晰,更 加强大的方式。 支持向量 距离 5 1.支持向量机概述 硬间隔、软间隔和非线性 SVM 假如数据是完全的线性可分的,那么学习到的模型可以称为硬间隔支持向 量机。换个说法,硬间隔指的就是完全分类准确,不能存在分类错误的情 况。软间隔,就是允许一定量的样本分类错误。 软间隔 硬间隔 线性可分 线性不可分 6 支持向量 1.支持向量机概述 算法思想 找到集合边缘上的若干数据(称为 支持向量(Support Vector)) ,用这些点找出一个平面(称为决 策面),使得支持向量到该平面的 距离最大。 距离 7 1.支持向量机概述 背景知识 任意超平面可以用下面这个线性方程来描述: ?T? + ? = 00 码力 | 29 页 | 1.51 MB | 1 年前3大模型时代下向量数据库的设计与应用
大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • P 将辅助增强数据通过embedding过程转换为向量,加载到向量数据库中并做索引 • 对每个用户输入同样通过embedding过程得到向量,从向量数据库中搜索距离相近数据 • 将这些辅助数据与用户输入同时输入给大模型之后输出 向量数据库 • embedding通过大模型将各种形式的数据转换成向量 向量数据库 • 两个向量可以计算它们的距离(欧式,余弦/内积, 曼哈顿等),距离越近,表示这两个物体越相似 • 向量搜索的基本问题:K-Nearest0 码力 | 28 页 | 1.69 MB | 1 年前32022年美团技术年货 合辑
次 KDD Cup&Kaggle 冠军的经验分享:从多领域优化到 AutoML 框架 37 图神经网络训练框架的实践和探索 66 图技术在美团外卖下的场景化应用及探索 83 大规模异构图召回在美团到店推荐广告的应用 102 美团搜索粗排优化的探索与实践 116 美团外卖推荐情境化智能流量分发的实践与探索 129 大众点评搜索相关性技术探索与实践 152 美团 SemEval2022 度、中心点距离、纵横比等因素来衡量 两者之间的差距,从而指导网络最小化损失以提升回归精度,但是这些方法都没有考 虑到预测框与目标框之间方向的匹配性。SIoU 损失函数通过引入了所需回归之间的 向量角度,重新定义了距离损失,有效降低了回归的自由度,加快网络收敛,进一步 提升了回归精度。通过在 YOLOv6s 上采用 SIoU loss 进行实验,对比 CIoU loss, 平均检测精度提升 中,还可以用图表示 实体与实体间多样的关系。另一方面,深度学习技术在计算机视觉、自然语言处理、 语音处理等领域均已取得了巨大的成功。深度学习技术将图像、文本、语音等多种多 样的数据转化为稠密的向量表示,提供了表示数据的另一种方式。借助于硬件日益强 大的计算能力,深度学习可以从海量数据中学习到数据之间复杂多样的相关性。 这会让人不禁思考,深度学习能否应用到更广阔的领域,比如——图?事实上,早0 码力 | 1356 页 | 45.90 MB | 1 年前3微博在线机器学习和深度学习实践-黄波
模型验证 离线训练 实时训练 模型训练 模型部署 在线服务 离线验证 在线发布 在线验证 在线一致性/ 模型稳定性/… 一键打包 端口探测 蓝绿部署/灰度发布 AUC/准确率/ 召回率/… 流量切换 版本更新 全量发布 … verson1 verson2 … kubenetes/olsubmit 模型库 3 在线机器学习-模型服务部署 • 模型评估 • 模型上线部署前指标评估 Wide&Deep;DeepFM 4 深度学习 物料粗排 特征向量化 基于Item2vec的 博主召回和微博 召回 物料精排 向量索引 DSSM/FM/FF M生成博主与物 料向量,采用 向量进行召回 特征向量化:Item2vec 向量索引:FM/FFM/ DSSM 模型召回:DIN/DIEN/TDM 模型召回 融入用户近期互动行 为的深度模型召回 单目标:LR->W&D->FM->DeepFM 文本Embedding特征,相比于文本标签,相关指标提升约3+% • 基于word2vec、bert等生成embedding向量,提高了语义编码的准确性,降低了训练成本 • 指标提升主要来源于Embedding特征保留了更多原始信息,避免了标签带来的信息损失 • User/Item Embedding 协同召回 • Item2vec相比于传统协同过滤MF等,稀疏样本下表现极好 • 同时该特征可用于排序部分特征输入0 码力 | 36 页 | 16.69 MB | 1 年前3超大规模深度学习在美团的应用-余建平
搭建起支持千亿 级别规模的深度学习系统,与推荐、搜索、广告业务深度合作,在算法上提供从召回到 排序的全系统优化方案,在工程上提供离线、近线、在线的全流程解决方案。 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 美团超大规模模型应用场景 美团推荐 美团搜索 美团广告 美团应用场景简介 • 场景特点 亿级的用户,千万级的O2O商品 海量的用户行为,完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈 目录 • 美团超大规模模型场景简介 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 超大规模模型的有效性 • VC维理论 描述模型的学习能力:VC维越大模型越复杂,学习能力越强 机器学习能力 = 数据 + 特征 + 模型 • 数据 海量数据: 美团的亿级用户、千万级POI • 特征 大规模离散特征 > 小规模泛化特征0 码力 | 41 页 | 5.96 MB | 1 年前3Al原生数据库与RAG
张颖峰 英飞流(上海)信息科技有限公司 创始人 目 录 RAG技术实践 01 Infinity系统架构 02 RAG技术实践 第一部分 基于向量数据库的RAG解决方案 文档 文本块 向量 VectorDB Embedding 向量相似度 提问 答案 查询 结果 文本切分 相关文本块 提示词 提示词模版 对话机器人 搜索 推荐 Copilot Embedding模型 APIs 文档 网站 日志 交易记录 向量数据库 LLM 编排 Copilot RAG典型挑战和解决方案 挑战一:向量召回不准确 挑战四:幻觉、胡说八道 挑战五:定制化成本 挑战二:数据组织混乱丧失语义 挑战三:多样化查询需求 数据加工 数据库 文档结构识别 文字加工 多路召回 融合排序 RAG引擎工作流程 文档格式转换 跨模态文档 抽取系统 文档 表格 抽取 系统 规则 引擎 模型 系统 文档内容抽取 文档格式解析 Prompt Template 提示模板 Recall 多路召回 Query 问题 Embedding 向量化 KnowledgeBase 知识库 ANN Parser Vector Index Full Text Index Cross Attentional Reranker0 码力 | 25 页 | 4.48 MB | 1 年前32.游戏战中陪伴助手微服务架构设计与应用
推荐系统接入——系统架构 推荐系统: 向量化 方案探索——资源点推荐 针对具体场景开发 - 专利:《一种在游戏中离线挖掘、实时推荐资源点的方案》 - 大数据挖掘资源出现位置 - 左:配置文件 - 右:大数据挖掘 - 不足: - 太 bug 了,限制使用 方案探索——聚类统计 模仿大多数玩家的选择 - 实现方法: - 为玩家生成 [0, 1] 特征向量 - 聚类统计,存入 Faiss Faiss 匹配召回 - 问题: - 特征过多(600多维),无法分析 - 聚类结果趋同 方案探索——关键帧 / 路径推荐 模仿某一个玩家的选择 - 专利:《一种在实时游戏对局中,模仿历史胜利玩家打法,并对当前玩家进行打法推荐的方案》 - 发明点:序列截断、偏移算法、帧前进、…… - 思考: - 学习/模仿历史已吃鸡玩家的走位 - 历史玩家的状态,也可作为策略 - 通过特征向量匹配历史玩家 - 运营可闭环策略设计,开发无需介入 方案详述——完整架构 先对整个架构有一个大概的认识 - 消息队列消费:解耦 MQ - Token 清洗:事件翻译和 token 计算 - 推荐系统:策略召回和推荐 - 数据分析:离线策略挖掘和模型训练 - 管理平台:开发、运营、运维辅助 实现方案——Token 清洗 Token 清洗服务完整流程 - 挑战:150+类 token,如何高内聚,降低0 码力 | 47 页 | 11.10 MB | 1 年前32024 中国开源开发者报告
Insight 2024 中国开源开发者报告重点聚焦大模型,本章节以大模 型 LLM 开发技术栈作为切入点,将深入探讨以下中国 AI 大模型领域的代表性开源项目社区。 这些开源项目社区覆盖了深度学习框架、向量数据库、AI辅 助编程、LLM 应用开发框架、模型微调、推理优化、LLM Agent,以及检索增强生成(RAG)等多个关键技术栈。 为了更全面客观地展示中国大模型 LLM 开发技术栈的开源 社区生态,我们使用了 16 / 111 OSS Compass Insight 生产力-协作开发指数 本部分图表仅用于数据展示,不涉及先后排名 作为国内及业内领先的 AI 开发基础设施,本部分图表 中的开发框架、向量数据库、 开发平台、大模型均表现出 色,代表着它们的代码提交 频率、参与者、代码合并比 率等协作开发工作保持着较 高的水平。 17 / 111 OSS Compass Insight 本部分图表仅用于数据展示,不涉及先后排名 (EMQ) 市场&开发者 社区总监一职。 2004 年,顾钧从北京大学计算机系本科毕业,其后在工商银行、IBM、 摩根士丹利、华为和 Zilliz 等多家知名企业工作。 曾联合发起全球首个开源向量数据库项目 Milvus,并帮助 Milvus 社区 在两年间迅速拓展到两千家企业用户。 29 / 111 大模型撞上“算力墙”,超级应用的探寻之路 文/傅聪 近日,大模型教父 Sam Altman0 码力 | 111 页 | 11.44 MB | 8 月前3从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱
�推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Serving系统 HDFS 数据 通道 训练系统 召回 业务服务 排序 混排 模型 管理 上线 管理 ⽆量 RGW/Cos/ kafka 样本 存储 实时样本 ⽣成服务 离线样本 ⽣成任务 数据 通道 特征 处理 模型 登记 模型 全量模型,TB级,低峰期(Cos存储) 增量模型,GB级,20分钟(Cos存储) 实时模型,KB级,秒(Kafka) 分布式 Serving集群 推理节点 分布式 Serving集群 推理节点 召回索引服务 业务服务 1. 获取⽤户向量 2. 向量召回 异步 刷库 训练端⽣成⾼频参数集 独⽴通道上线 降低请求⽑刺 Feature 2.1: 短时间内只 有部分参数被⽤到 Feature 2.2 Hotkey变化慢0 码力 | 22 页 | 6.76 MB | 1 年前3阿里云上深度学习建模实践-程孟力
要求: 准确: 低噪声 全面: 同分布 模型选型: 容量大 计算量小 训练推理: 高qps, 低rt 支持超大模型 性价比 流程长、环节多: 推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动 实人认证: 卡证识别 + 人脸检测 + 活体检测 + 人脸 识别 … 模型构建: 问题: ✗ 方案复杂周期长/见效慢 ✗ 细节多难免踩坑 PAI-Rec – 推荐引擎 BE召回/Hologres hot x2i vec 排序 粗排 精排 重排 MaxCompute Datahub 离线特征 样本构造 实时特征 Flink 训练数据 推荐日志 模型发布 在线流程 离线流程 智能推荐解决方案 > PAI-REC 推荐引擎 PAI-REC 推荐引擎 多路召回 曝光/状态过滤 粗排/精排 策略[类目打散、流量控制、…] PAI-REC平台 自动化降级 负载均衡 灰度发布 超时控制 平台支持 日志SLS 在线存储 Hologres/OTS BE Redis 读取数据 向量引擎 BE/Hologres/Faiss/Milvus 向量检索 冷启动召 回 冷启动排 序 Pipeline1 Pipeline2 标准化: Standard Solutions 标准化: Standard Solutions0 码力 | 40 页 | 8.51 MB | 1 年前3
共 199 条
- 1
- 2
- 3
- 4
- 5
- 6
- 20