PieCloudDB 的云原生之路
PieCloudDB 的云原生之路 姓名:吴疆 公司:拓数派 职位:产品及推广总监 IvorySQL开源数据库社区 吴疆 IvorySQL开源数据库社区 打造立足于国内 基础数据计算领域的世界级高科技创新驱动机构 杭州拓数派科技发展有限公司(又称“OpenPie”),以 “Data Computing for New Discoveries”「数据计算,只为新 发现」为使命,成立后的短短10个月时间内,完成了包括头部 发现」为使命,成立后的短短10个月时间内,完成了包括头部 产业基金、东吴证券、元禾重元和政府科创平台在内的连续三 轮战略融资。 旗下云原生分析型数据库 PieCloudDB,以云计算架构为设 计基础,首创全新 eMPP 分布式技术,帮助企业建立竞争壁垒 的同时,实现数据价值最大化,并在新基建中承担可靠和可控 的世界级云数据库底座。 IvorySQL开源数据库社区 2021 2022 当天即获得腾讯投资天使轮投资 成为 与中国人民大学成立实习基地,打造 中国的云原生数据库世界级智力高地 11月 4月 获得元禾重元和东吴证券 Pre-A 轮投资 标志着企业进入快速成长期 拓数派 正式成立 成立杭州总部、北京研发中心、 上海全球品牌战略与生态发展中心 12月 获得腾讯投资第二轮持续加注投资 得到众多知名投资机构的关注和认可 蓬 勃 发 展 的 拓 数 派 引 领 数 据 计 算 时 代 的 到 来 9月 杭州萧山区政府“一事一议”0 码力 | 47 页 | 1.80 MB | 1 年前3AGI 趋势下的云原生数据计算系统
AGI趋势下的云原生数据计算系统 演讲人:徐阳 拓数派:大模型数据计算系统先行者 l 拓数派( OpenPie)是立足于国内的基础数据计 算领域高科技创新机构; l 拥有强大的数据库内核研发团队、数据科学家团 队和数字化转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据 计算引擎方向进行创新,全面拥抱AI技术趋势。 企业介绍 云原生数据计算系统 围绕数据组织云原生计算系统, AGI顶级人才非常欠缺,整 个市场将长期保持快速增 长态势。 01 AIGC全生命周期管理 基于PieCloudML,为企业构 建统一的MaaS框架和AIGC开 发框架,对模型和AI Agent进 行高效管理。 03 案例分享 基于PieDataCS的用户案例实 践,从基础的数据底座到 AIGC应用全场景覆盖。 04 中国AGI发展趋势 中国AGI市场融资非常活跃,AGI顶级人才非常欠缺,整 中国AGI市场的技术框架。 国内AGI市场分层 中国AGI发展趋势 l 在通往AGI的征途上,AI Agent正逐渐成为探索的核心路径。但随着时间的推移,大模型的一些局限性开始显现,尽管大模型在模仿人类 认知方面取得了显著进步,但要达到真正的通用智能,仍需克服重重困难。因此,AI Agent作为新的研究方向,开始受至越来越多的关注。 AI Agent成为推动AI技术革命的关键力量 云原生数据计算系统0 码力 | 26 页 | 2.84 MB | 1 年前3PieCloudDB:基于PostgreSQL的eMPP云原生数据库
PieCloudDB: 基于PostgreSQL的eMPP 云原生数据库 吴疆 OpenPie产品和推广总监 @2022 OpenPie. All rights reserved. OpenPie Confidential @2022 OpenPie. All rights reserved. OpenPie Confidential !"#$%&'()*+,-./01234567489:;1<=>= ¨©:ª{Rkž«¬-®¯u®°Z±²³‡$M•´µ„ 打造立足于国内 基础数据计算领域的世界级高科技创新驱动机构 CONTENTS @2022 OpenPie. All rights reserved. OpenPie Confidential 云解决了什么? 借助于云上分布式存储,解耦存储 借助于云上虚拟化技术和之上的IaaS,解耦计算 池化资源,按需使用 基础软件尤其是数据平台上云已是大势所趋 All rights reserved. OpenPie Confidential 上云 ≠ 云原生 弹性计算 智能化云原生平 台 多租户 • 产品要能支持存储资源和计算资源的分离 • 产品要能快速进行计算资源的弹性伸缩 @2022 OpenPie. All rights reserved. OpenPie Confidential 我们需要一个云原生大数据平台 缺乏弹性 业务使用不灵活0 码力 | 45 页 | 1.32 MB | 1 年前3云时代下多数据计算引擎的设计与实现
云时代下多数据计算引擎的设计与实现 郭罡 CTO 拓数派(OpenPie) @2024 OpenPie. All rights reserved. OpenPie Confidential 关 于 拓 数 派 • 成立于2021年,以“Data Computing for New Discoveries”「数据计算,只为新发现」 为使命. • 核心团队来自于各大厂名校,有丰富的数据库(Gre 据库 等. • PieCloudDB 存储底座是各计算引擎的载体. • 已落地或者正在落地:IoT、金融、新能源、医疗等行业. @2024 OpenPie. All rights reserved. OpenPie Confidential 云时代 数据计算 多数据模态支持 广泛的生态支持 “一份数据,多引擎计算”的述求 让数据流动起来 @2024 OpenPie. All rights 元数据、用户数据、计算完全分离. • 用户数据(code name: Janm)支持 S3/HDFS/Posix. • 架构:Share Nothing on share storage. • 丰富的外围产品支持. • 将来会支持单机和HTAP. Postgres生态 软件交付版本 (最新版本:v2.11) • 社区版 • 企业版 • CoC(云上云)版 @2024 OpenPie0 码力 | 15 页 | 3.09 MB | 1 年前3兼容龙蜥的云原生大模型数据计算系统:πDataCS
--πDataCS简介 兼容龙蜥的云原生大模型数据计算系统 拓数派产品市场总监 吴疆 吴疆 深耕云计算和数据库行业十余年 拓数派(Openpie)产品市场总监 毕业于清华大学计算机系,先后在IBM,EMC, Pivotal,VMWare参与多个云平台和数据库项目 01 拓数派简介 πDataCS简介 02 πDataCS与龙晰 03 01. 拓数派简介 海 外 研 发 于国内,基础数据计算领域的高科技创新机构。 作 为 国 内 云 上 数 据 库 和 数 据 计 算 领 域 的 引 领 者 , 拓 数 派 以 “Data Computing for New Discoveries”「数据计算,只为新发现」为使命,致力于在数字原生时代,运用突破性计算理论、 独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准, 驱动企业实 驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。 拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持全球领先,成为AI的基础科技底座的同时,开启AI技术的新范式。 πDataCS旨在助力企业优化计算瓶颈0 码力 | 29 页 | 7.46 MB | 1 年前3云原生虚拟数仓 PieCloudDB 的架构和关键模块实现
OpenPie Confidential • 在世界范围内的统计信息显示,Nosql和数据湖已经不在数据分析 领域占有主要市场 • Nosql和数据湖缺少很多支持数据分析的重要特性 o 缺少在高并发场景下的隔离性和一致性 o 和现有的BI工具很难集成 • 关系型数据库已经重新成为数据分析的主要平台 NoSQL 和数据湖已经不再是数据分析的主要平台 @2022 OpenPie. All rights 图形,地理信息 • Nosql对于复杂查询的支持差 NoSQL和数据湖很难胜任数据分析的工作场景 @2022 OpenPie. All rights reserved. OpenPie Confidential • 使用数据湖为基础进行数据分析需要多个组件进行集成部署,多个 组件的配合需要大量的开发工作 • 许多缺乏 ANSI SQL 支持,需要专门的技术技能 • 专用引擎/工具(例如图形数据库)通常难以与记录系统集成,限制 制 了分析和创新的操作化 NoSQL和数据湖为基础的基础设施需要的分析工具不容易集成和部署 @2022 OpenPie. All rights reserved. OpenPie Confidential • 公有云无限的计算池可以提供理想的弹性计算资源 • 公有云廉价且无限容量的对象存储 • 传统数仓缺乏弹性和存算分离,难以利用公有云的优势 以关系型数据库为基础的数据仓库很难适应云环境0 码力 | 43 页 | 1.14 MB | 1 年前3大模型时代下向量数据库的设计与应用
大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 数据时效 - LLM训练数据有截止日期,不包含最新信息,无法准确回答相关信息 • 私域数据 - LLM训练数据多来源于公开渠道,无法接触到私域数据,对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力,对长时间交互的上下文 Query LLM Response 检索增强生成(RAG) • 将辅助增强数据通过embedding过程转换为向量,加载到向量数据库中并做索引0 码力 | 28 页 | 1.69 MB | 1 年前3PieCloudDB:云原生分布式虚拟数仓的诞生之旅
@2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB:云原⽣分布式 虚拟数仓的过去、现在和未来 郭罡 拓数派 @2022 OpenPie. All rights reserved. OpenPie Confidential 关于我 • 18年+基础软件⼀线经验 • 9年:Unix/Linux应⽤和内核开发、虚拟化(芯⽚KVM内核⽀持)、⾼速 S offload)等. • 2年:分布式系统(存储和缓存)开发、云计算平台架构. • 7年+:数据库内核开发 (HAWQ、PG、Greenplum、PieCloudDb). • 现在负责拓数派的整个研发管理. • 毕业于中国科学技术⼤学(专业语⾳识别). @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB简介 PieCloudDB简介 (cont.) • 为什么我们觉得数据库云原⽣很重要? • 破除数据隔离(⼀份数据就好). • 否则⼀致性问题、也浪费存储空间. • 数据作为新的⽣产要素要流通起来才有更⼤价值. • 参考云被认同的时间线. • 弹性伸缩(成本 & 性能 & 灵活). • 云对于⼩中⼤客⼾都有价值. @2022 OpenPie. All rights reserved. OpenPie0 码力 | 24 页 | 2.01 MB | 1 年前3PieCloudDB Database 产品白皮书
Database 本EMPP 基灿异并行计算) 的云原生虚拟数仓 产品白皮书 ENRANSGenpPie.com 20230penPieAIIRight Reserved, Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 行业背景 数据量的爆发式增长 数据库的未来在云上 传统数仓的痛点 云时代的数据处理要求 piecloudDB,云原生虚拟数仓 (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 百岗 行业背景 石油是工业的血液,数据是数字经济的“石油”,数据分析则是石油精炼。 随着信息技术的发展,互联网应用的加速普及,人类进入了数字经济时代。进入二十一世纪以后,随着移动互联网技 术、物联网技术、5G等技术的发展,全球数据圈 (Global Datasphere) 呈指数级递增, IDC预测全球数据圈将于 2025年增长值175ZB,而中国的数据圈 济时代的“石 油”,如同石油驱动了工业化时代的进步,大数据将推动智能化与数字化时代的发展。 Annual Size of the Global Datasphere zetabytes 击需视各2nk 2n 2n6 201 2018 20192070 20717022 2973 2024 2025 1DC:全球数据圈预测 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分0 码力 | 17 页 | 2.68 MB | 1 年前3云原生虚拟数仓PieCloudDB Database产品白皮书
Database 基于 eMPP (弹性大规模并行计算)的云原生虚拟数仓 产品白皮书 www.OpenPie.com ©2023 OpenPie All Right Reserved . 行业背景 数据量的爆发式增长 数据库的未来在云上 传统数仓的痛点 云时代的数据处理要求 PieCloudDB,云原生虚拟数仓 行 业 背 景 石油是工业的血液,数据是数字经济的“石油”,数据分析则是石油精炼。 随着信息技术的发展,互联网应用的加速普及,人类进入了数字经济时代。进入二十一世纪以后,随着移动互联网技 术、物联网技术、5G等技术的发展,全球数据圈(Global Datasphere)呈指数级递增, IDC预测全球数据圈将于 2025年增长值175ZB,而中国的数据圈有望于2025年爆炸式增长为世界第一 。数据被称为数字经济时代的“石 油”,如同石油驱动了工业化时代的进步,大数据将推动智能化与数字化时代的发展。 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算(Data Computing)的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 化转型面临巨大0 码力 | 17 页 | 2.02 MB | 1 年前3
共 20 条
- 1
- 2