大模型时代下向量数据库的设计与应用
大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • P 将辅助增强数据通过embedding过程转换为向量,加载到向量数据库中并做索引 • 对每个用户输入同样通过embedding过程得到向量,从向量数据库中搜索距离相近数据 • 将这些辅助数据与用户输入同时输入给大模型之后输出 向量数据库 • embedding通过大模型将各种形式的数据转换成向量 向量数据库 • 两个向量可以计算它们的距离(欧式,余弦/内积, 曼哈顿等),距离越近,表示这两个物体越相似 • 向量搜索的基本问题:K-Nearest0 码力 | 28 页 | 1.69 MB | 1 年前3πDataCS赋能工业软件创新与实践
OpenPie Confidential πDataCS的产品理念及定位 数据 计算 模型 灵活扩展的数据引擎,支持关系型数据库SQL、Spark/Flink 等流批⼀体处理、LLM的向量数据库以及GIS地理数据库等。 1 2 3 ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数据,多引擎数据计算,AI数学模型、数据和 计算三者互为增强,全面升级⼤数据系统⾄⼤模型时代 具备整体数据平台⽅案,支持多模数据处理(结构化、半结构化 以及非结构化数据),实现数据共享和分析。 软件优化 + 新硬件(FPGA)加速,实现数据全链路的性能飞跃, 让数据存储、SQL查询、向量计算以及机器学习等能⼒全面升级。 @2024 OpenPie. All rights reserved. OpenPie Confidential • 全新云原⽣架构「⼀份数据,多引擎计算」 弹 合 开 发 垂 直 应 用 • CMU战略合作⼤模型基础理论,训练合作⼀事⼀议 πCloudDB πCloudVector πCloudML 虚拟数仓服务HTAP | 点查 (⼤模型)机器学习 向量数据计算 ⼤模型训练… 自研简墨存储 … 统⼀数据格式 | ⼀份数据多引擎计算|兼容主流云存储格式和协议 智能新硬件技术 πFPGA 数据存储|虚拟数仓 | 特定领域(如神经⽹络) 私有云0 码力 | 36 页 | 4.25 MB | 1 年前3兼容龙蜥的云原生大模型数据计算系统:πDataCS
开 发 垂 直 应 用 • CMU战略合作大模型基础理论,训练合作一事一议 πCloudDB πCloudVector πCloudML 虚拟数仓服务HTAP | 点查 (大模型)机器学习 向量数据计算 大模型训练… 自 研 简 墨 存 储 … 统一数据格式 | 一份数据多引擎计算|兼容主流云存储格式和协议 智能新硬件技术 πFPGA 数据存储|虚拟数仓 | 特定领域(如神经网络) 复杂的分析查询需求。 πDataCS的第二个计算引擎 πCloudVector 计算引擎之 PieCloudVector 云原生向量数据库,为大模型提供独特记忆 PieCloudVector 竞争优势 专用向量数据库 具备向量搜索能力的云原生虚拟数仓 具备向量搜索能力的传统数据库 πCloudVector • 冗余数据、过度的数据搬运、分布式组件之间的 数据缺乏一致性 • 专业技能的额外劳动力成本、额外的许可成本 打破专用向量数据库的局限性 • 统一的数据平台,在动态扩缩容过程中无需移动 数据,充分保障数据的一致性 • 使用简单,学习成本低,无需额外投入 • 既满足了向量存储和向量搜索的需求,又升级实 现了云上分布式向量化计算的技术突破 • 支持多种向量搜索算法,为不同的业务场景提供 更灵活高效的解决方案 突破传统数据库的技术瓶颈 • 无法弹性扩缩向量化存储和计算的资源 • 在向量化计算的场景下,易用性和性能较差0 码力 | 29 页 | 7.46 MB | 1 年前3云时代下多数据计算引擎的设计与实现
核心团队来自于各大厂名校,有丰富的数据库(Greenplum,DB2,ClickHouse等)研发 和产业经验. • 产品 πDataCS:多计算引擎,包括自研分布式数据库PieCloudDB,自研分布式向量数据库 等. • PieCloudDB 存储底座是各计算引擎的载体. • 已落地或者正在落地:IoT、金融、新能源、医疗等行业. @2024 OpenPie. All rights reserved 统云存储底座 @2024 OpenPie. All rights reserved. OpenPie Confidential 多计算引擎 内置计算引擎 Postgres执行器 全新的向量化执行引 擎 向量数据库 单机和分布式 Spark 客户依赖 跑批任务 机器学习 …… ... 按需增加 @2024 OpenPie. All rights reserved. OpenPie OpenPie Confidential Postgres 执行计算引擎 向量化执行引擎 FALLBACK 用(新引 擎功能暂不支持或者短期故障逃逸) 行处理,将来 HTAP 的 OLTP 用. @2024 OpenPie. All rights reserved. OpenPie Confidential 向量化 执行计算引擎 • SIMD深度优化 • 核心分析型计算算子完成 •0 码力 | 15 页 | 3.09 MB | 1 年前3AGI 趋势下的云原生数据计算系统
PieDataCS数据底座为AI大模型赋能 云原生数据计算系统 虚拟数仓引擎设计 云原生数据计算系统 分布式优化器设计 云原生数据计算系统 结构化和半结构化数据同步 云原生数据计算系统 向量计算引擎设计 云原生数据计算系统 多模态数据共享 AIGC全生命周期管理 基于PieCloudML,为企业构建统一的MaaS框架和 AIGC开发框架,对模型和AI Agent进行高效管理。0 码力 | 26 页 | 2.84 MB | 1 年前3如何从零开始参与技术社区?
u 中国唯⼀全自研Table Format技术 ⼤模型数据计算系统技术突破 πCloudDB πCloudVector πCloudML 虚拟数仓服务HTAP | 点查 (⼤模型) 机器学习 向量数据计算 ⼤模型训练… 自研简墨存储 … 统⼀数据格式 | ⼀份数据多引擎计算|兼容主流云存储格式和协议 智能新硬件技术 πFPGA 数据存储|虚拟数仓 | 特定领域(如神经⽹络) Mundo元数据管理系统0 码力 | 25 页 | 871.00 KB | 1 年前3PieCloudDB:基于PostgreSQL的eMPP云原生数据库
All rights reserved. OpenPie Confidential 构建新一代云原生存储引擎 • 完备的事务 • Block文件级别的MVCC实现 • 优化器与执行器的演进 • 向量化 • 文件查询裁剪(Block Skipping) • 聚集下推扫描(PreAgg Pushdown Scan) @2022 OpenPie. All rights reserved. OpenPie0 码力 | 45 页 | 1.32 MB | 1 年前3
共 7 条
- 1