大模型时代下向量数据库的设计与应用
大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期,不包含最新信息,无法准确回答相关信息 通过信通院测试 案例分析 - 东吴证券秀财gpt • 采用自研大模型东吴秀财GPT + LangChain开发框架 + PieCloudVector向量数据库构建了AIGC应 用平台,接入了交易应用的结构化数据和非结构化数据,其中非结构化数据主要是文本类数据 下一步展望 • GraphRAG 欢迎关注我们! 麦思博(msup)有限公司是一家面向技术型企业的培训咨询机构,携手2000余位0 码力 | 28 页 | 1.69 MB | 1 年前3云原生虚拟数仓PieCloudDB Database产品白皮书
4 5 6 7 7 8 11 13 15 16 目 录 行 业 背 景 石油是工业的血液,数据是数字经济的“石油”,数据分析则是石油精炼。 随着信息技术的发展,互联网应用的加速普及,人类进入了数字经济时代。进入二十一世纪以后,随着移动互联网技 术、物联网技术、5G等技术的发展,全球数据圈(Global Datasphere)呈指数级递增, IDC预测全球数据圈将于 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 5 云时代的数据处理要求 随着数据量和计算能力的爆发式增长,云计算技术的迅猛发展,云原生架构愈受欢迎,云原生时代应运而生。云原生 时代,越来越多的企业将应用向云上迁移,而越来越多的数据也流向云上。公有云带来了众多优势: 每天有数个小的计算任务,需要数个节点 每周有一个中等计算任务,需要数十个节点 每月有一个大的计算任务,需要数千个节点 无限空间: 核心的竞争壁垒。 7 PieCloudDB 产品架构 PieCloudDB 整体架构分为三个层次,包括基础设施层、数据处理层及数据应用层。详细阐述如下: 基础设施层 基础设施层为 PieCloudDB 提供计算资源、存储资源和网络资源,PieCloudDB 支持部署在物理服务器、虚拟机以及容 器中,同时也提供 PieCloudDB 公有云 SaaS 服务。 数据处理层0 码力 | 17 页 | 2.02 MB | 1 年前3PieCloudDB Database 产品白皮书
PiecloudDB 基于 eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 百岗 行业背景 石油是工业的血液,数据是数字经济的“石油”,数据分析则是石油精炼。 随着信息技术的发展,互联网应用的加速普及,人类进入了数字经济时代。进入二十一世纪以后,随着移动互联网技 术、物联网技术、5G等技术的发展,全球数据圈 (Global Datasphere) 呈指数级递增, IDC预测全球数据圈将于 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 云时代的数据处理要求 随着数据量和计算能力的爆发式增长,云计算技术的迅猛发展,云原生架构愈受欢迎,云原生时代应运而生。云原生 时代,越来越多的企业将应用向云上迁移,而越来越多的数据也流向云上。公有云带来了众多优势: 时可以申请/释放的计算资源 霹 无限的计算资源 亿-曾 无限的存信池 C 二 低价的对象存储 Openpie | PiecloudDB 为新一代Al数据计算基础设施的一个典范。 PiecloudDB 产品架构 pieCloudDB 整体架构分为三个层次,包括基础设施层、数据处理层及数据应用层。详细阐述如下: 基础设施层为 pieCloudDB 提供计算资源、存储资源和网络资源,PieCloudDB 支持部署在物理服务器、庶拟机以及容 器中,同时也提供 PieCloudDB 公有云 Saa5 服务。 * ”数据处理层 PieCloudDB0 码力 | 17 页 | 2.68 MB | 1 年前3兼容龙蜥的云原生大模型数据计算系统:πDataCS
控的大模型数据计算系统保持全球领先,成为AI的基础科技底座的同时,开启AI技术的新范式。 πDataCS旨在助力企业优化计算瓶颈、充分利用和发挥数据规模优势,构建核心技术壁垒,让大模 型技术全面赋能行业AI场景应用,助力合作伙伴成功,为企业创造更大的商业价值。 全 球 数 据 计 算 系 统 引 领 者 • 归国后在美国500强EMC旗下创建了Greenplum中国,随后在2013年在Paul Maritz(届时VMware 向量数据计算 大模型训练… 自 研 简 墨 存 储 … 统一数据格式 | 一份数据多引擎计算|兼容主流云存储格式和协议 智能新硬件技术 πFPGA 数据存储|虚拟数仓 | 特定领域(如神经网络) 私有云 Mundo元数据管理系统 统一Catalog 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是 大数据技术中的基石。让用户可以在不了解分布式底层细节的情况下,开发分布 24的安心保障。 πDataCS 优势1 :全面升级Hadoop大数据和Greenplum数仓至云原生数据平台 PieCloudVector与LLM在私域知识库领域的应用实践路径 πDataCS优势2: 全面支持大语言基础模型和私域数据结合做垂直应用 πDataCS优势3 :云原生下eMPP计算引擎全面颠覆MPP技术,大模型数据计算新范式 SQL语言实现的结构化数据上的模型计算 打破企业数据孤岛,整合企业所有表格类数据资源0 码力 | 29 页 | 7.46 MB | 1 年前3PieCloudDB 的云原生之路
轻松应对 PB 级海量数据。 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多 层缓存结构,避免网络延迟和数据移动,提高计算效率,保 证用户的实时性需求。PieCloudDB 针对底层对象存储设计了 高效的文件格式,可在节省网络请求的同时提高计算效率。 全新的优化器「达奇」 PieCloudDB 可以更智能高效地生成统计信息,并生成更高 效的查询计划, 可根据客户需求在任何 IaaS云和裸硬件上安装。 可打通多云的数据管道, 解锁对特定IaaS云的依赖 并获得云资源议价权。 实时处理 在计算层,各个计算节点针对元数据和用 户数据都设计了多层缓存结构,避免网络 延迟和数据移动,提高计算效率,保证用 户的实时性需求。 数据安全 PieCloudDB 提供企 业级透明数据加密。 运用实时加密,高强 度算法,多级密钥等 技术保护数据安全。 IvorySQL开源数据库社区0 码力 | 47 页 | 1.80 MB | 1 年前3πDataCS赋能工业软件创新与实践
据库等。 1 2 3 ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数据,多引擎数据计算,AI数学模型、数据和 计算三者互为增强,全面升级⼤数据系统⾄⼤模型时代 ,赋能⾏业AI场景应用。 具备整体数据平台⽅案,支持多模数据处理(结构化、半结构化 以及非结构化数据),实现数据共享和分析。 软件优化 + 新硬件(FPGA)加速,实现数据全链路的性能飞跃, 让数据存储、SQL查 态合作伙伴都可以直接提供技术服务,7 * 24的安⼼保障。 @2024 OpenPie. All rights reserved. OpenPie Confidential PieCloudVector与LLM在私域知识库领域的应用实践路径 π D a t a C S 优 势 2 : 全 面 支 持 ⼤ 语 ⾔ 基 础 模 型 和 私 域 数 据 结 合 做 垂 直 应 用 @2024 OpenPie. All rights 层面来看,他们就是⼀个个的进程,这些进程分布在不同的计算节点上; 3. 如图中示例,业务应用的计算任务数量增加或需要处理的数据量变⼤, 对应的计算资源(主要是CPU、MEM)也会增加,根据计算资源需求, 虚拟数仓可以在线弹性的扩缩容,在此图示例中,执⾏器可以从原来的3 个变成4个,缩容也是同样的原理; 4. 虚拟数仓在执⾏具体的业务应用请求时,协调器会去统筹整个计算资源, 将优化后的SQL下发⾄执⾏器,执⾏器负责具体的SQL执⾏,多个执⾏器0 码力 | 36 页 | 4.25 MB | 1 年前3AGI 趋势下的云原生数据计算系统
基于PieDataCS的用户案例实 践,从基础的数据底座到 AIGC应用全场景覆盖。 04 中国AGI发展趋势 中国AGI市场融资非常活跃,AGI顶级人才非常欠缺,整 个市场将长期保持快速增长态势。 01 中国AGI发展趋势 l InfoQ研究中心预计,2030年中国AGI应用市场规模将达到4543.6亿元人民币。 l 2024-2027中国AGI应用市场将经历过速启动期;每年市场增速都将超过100% 持在50%以上。并于2027年突破千亿人民币市场规模。 l InfoQ研究中心认为,中国AGI应用市场规模发展将由企业市场引领主导,到2030年企业市场规模预计达到3024.6亿元人民币。 国内AGI市场增长趋势预测 说明:数据来自InfoQ研究中心 中国AGI发展趋势 l 中国AGI市场自下向上分为基础设施层、模型层、中间层和应用层四层,这四层结构共同构成了中国AGI市场的技术框架。 国内AGI市场分层 MaaS底座主流架构 AIGC全生命周期管理 AIGC应用组织 AIGC全生命周期管理 AIGC应用的全流程优化 AIGC全生命周期管理 AIGC应用最佳优化方案 案例分享 基于PieDataCS的用户案例实践,从基础的数据底座到 AIGC应用全场景覆盖。 04 案例分享 某大型央企的数据底座项目 案例分享 某金融客户的AIGC应用实践 THANKS0 码力 | 26 页 | 2.84 MB | 1 年前3PieCloudDB Database 社区版集群安装部署手册 V2.1
................................................................................ 39 5. 外部工具或者应用连接配置 .............................................................................................. 选框来 筛选查询语句的状态、起始日期和结束日期。 2. 如果需要下载的某次查询的结果,可以点击该SQL文本最右侧的 ,将结果以 csv 格式下载到 本地。 5. 外部工具或者应用连接配置 5.1 打开集群的外部入口 5.2 创建 database 1. CREATE DATABASE testdb; 5.3 修改数据库用户密码 数据库用户默认是平台注册的用户名。 select * from pg_authid; 3. alter role jojo password 'openpie' 5.4 配置连接访问 外部工具或者应用可以配置数据库用户名和密码、IP 以及端口等信息进行链接。以下为通过 dbeaver 工 具连接的示例:0 码力 | 42 页 | 1.58 MB | 1 年前3PieCloudDB Database V2.1 版本说明
全新的缓存机制:在 PieCloudDB 的计算层,各个计算节点针对元数据都设计了 多层缓存结构。 其中,针对元数据,PieCloudDB 实现了元数据层全新的缓存机制,有效减少了访问元 数据服务器带来的网络通信开销和元数据服务器的负载,提高元数据访问的速度。 • 可观察性增强:可得到更多的查询时系统的统计信息,包括元数据管理、S3 等。 • Vacuum 优化:在元数据层通过快速过滤不需要 vacuum0 码力 | 3 页 | 257.15 KB | 1 年前3PieCloudDB云原生数仓虚拟化之路
可根据客户需求在任何 IaaS云和裸硬件上安装。 可打通多云的数据管道, 解锁对特定IaaS云的依赖 并获得云资源议价权。 实时处理 在计算层,各个计算节点针对元数据和用 户数据都设计了多层缓存结构,避免网络 延迟和数据移动,提高计算效率,保证用 户的实时性需求。 数据安全 PieCloudDB提供企业 级透明数据加密。运 用实时加密,高强度 算法,多级密钥等技 术保护数据安全。 @2022 OpenPie0 码力 | 44 页 | 1.64 MB | 1 年前3
共 11 条
- 1
- 2