兼容龙蜥的云原生大模型数据计算系统:πDataCS
目 01 拓数派简介 πDataCS简介 02 πDataCS与龙晰 03 01. 拓数派简介 海 外 研 发 中 心 北 京 研 发 中 心 杭 州 总 部 上海全球品牌战略与生态发展中心 广 州 研 发 中 心 拓数派中国总部与全球分支机构 杭州拓数派科技发展有限公司(又称"OpenPie")是立足于国内,基础数据计算领域的高科技创新机构。 作 为 国 内 云 上 数 中国科技大学少年班 • 18年+底层基础软件领域开发经验 • 原Greenplum/HAWQ首席内核架构师 陆公瑜(Brian Lu) 合 伙 人 & C O O • 英国约克大学 • 15年+产品生态建设和运营管理经验 • 原Greenplum中国社区发起人 冯 雷(Ray Von) 创 始 人 & C E O • 浙江物理奥赛银牌 • 北京大学实验班,物理经济学双学位 • 原Piv 与中国人民大学成立实习基地,打造中国 的云原生数据库世界级智力高地 11月 4月 获得元禾重元和东吴证券Pre-A轮投资 标志 着企业进入快速成长期 拓数派 正式成立 成立杭州总部、北京研发中心、 上海全球品牌战略与生态发展中心 蓬勃发展的拓数派 驱动数据计算时代的到来 9月 成立加拿大研发中心 7月 PieCloudDB云原生数据库存算分离等关键技术打造完成 引领数据库行业全面走向云时代 8月 成立广州研发中心0 码力 | 29 页 | 7.46 MB | 1 年前3πDataCS赋能工业软件创新与实践
Confidential πDataCS 优势1 :全面升级Hadoop⼤数据和Greenplum数仓⾄云原⽣数据平台 是⼀个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题, 是⼤数据技术中的基⽯。让用户可以在不了解分布式底层细节的情况下,开发 分布式程序,以⼀种可靠、⾼效、可伸缩的⽅式进⾏数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 据量也急剧增长, 原本采用的Hadoop平台⽆法满⾜业务的分析需求,主要存在以下问题: Ø 数据同步和采集周期较长,实时性很差 Ø 数据量达到PB级别,数据分析性能直线下降 Ø 采用较多开源组件,技术栈太⼴,数据应用开发周期长 Ø Hadoop集群运维成本较⾼,技术响应慢 解决⽅案: 采用PieCloudDB作为核⼼数字底座,完成原来CDH(Hadoop)平台的替换,构建了制造业⾏业云的数据中台服务,既面向集团内0 码力 | 36 页 | 4.25 MB | 1 年前3PieCloudDB Database 产品白皮书
分析、性能监控、集群启停、自动化部署以及权限管控等能力; 用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析,提供标准的 SQL 接口,且内置各种分析工 具,并原生兼容 Postgres 生态,可以很好地处理地理信息数据和文本,未来会扩展其他 Ap| 接口,支持常见的数仓的 数据分析和人工智能、数据科学等功能。 Openl SN Pie | PiecloudDB 基于 eMPP (弹性大规模并行计算) 式计算引擎和数据接口来实现湖 仓一体化架构。通过云原生大数据服务以更低成本满足企业业务高弹性和敏汪性的需求。 pieCloudDB 打破了数据湖与数据仓库割裂的体系,架构上实现了将数据湖的灵活性、生态丰富与数据仓库的企业级 能力充分融合,帮助企业构建数据湖和数据仓库下合的数据管理平台。 PieCloudDB 内置的 foreign-data wrapper 《FDW) 模块,让用户可以访问 HDFS、MySQL 。安全性上支持端到端的访问控制管理 和证书管理。 * 完善的数据生态 PieCloudDB 兼容 PostgreSQL/Greenplum 生态组件,兼容大部分现有的 PostgreSQL/Greenplum 客户端,商务智能 {BI) 和 ETL组件。并且,PieCloudDB 正在加速构建更加完善的数据生态体系,通过创建生态工具、建立合作伙伴生 态网络、打造活跃的技术和用户社区等举措,为用户带来更便捷的使用体验。0 码力 | 17 页 | 2.68 MB | 1 年前3云原生虚拟数仓PieCloudDB Database产品白皮书
权限管控等能力; 数据应用层: 用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析,提供标准的 SQL 接口,且内置各种分析工 具,并原生兼容 Postgres 生态,可以很好地处理地理信息数据和文本,未来会扩展其他 API 接口,支持常见的数仓的 数据分析和人工智能、数据科学等功能。 PieCloudDB 产品概述 拓数派旗下旗舰产品PieCloudD 算引擎和数据接口来实现湖 仓一体化架构。通过云原生大数据服务以更低成本满足企业业务高弹性和敏捷性的需求。 PieCloudDB 打破了数据湖与数据仓库割裂的体系,架构上实现了将数据湖的灵活性、生态丰富与数据仓库的企业级 能力充分融合,帮助企业构建数据湖和数据仓库融合的数据管理平台。 PieCloudDB 内置的 foreign-data wrapper (FDW)模块,让用户可以访问 HDFS、MySQL PieCloudDB 的服务与支持; PieCloudDB提供了一键部署与扩容选项,企业可根据所需数据节点数量,按需配置。 不受基础架构限制 PieCloudDB: 11 数据隐私安全和加密 完善的数据生态 PieCloudDB 提供企业级数据透明加密。实时加密(on-the-fly)、高强度算法、多级密钥、传输加密等技术为企业数 据的安全性保驾护航。 PieCloudDB 还支持包括数0 码力 | 17 页 | 2.02 MB | 1 年前3PieCloudDB:基于PostgreSQL的eMPP云原生数据库
OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 重要特点 eMPP 完备的事务支持 完善的SQL标准支持 Postgres生态支持 安全 友好的用户接口(WebSql, ODBC/JDBC driver等). 云原生 • 弹性计算资源(横向和纵向)、极速调整 • 共享用户数据(典型如廉价对象存储) • 共享元数据 共享元数据 • MPP架构:分布式,海量数据并行处理 @2022 OpenPie. All rights reserved. OpenPie Confidential Postgres 生态 PieCloudDB 重新打造 PostgreSQL 12.x 实现存算分离 PieCloudDB 对几乎所有内核模块做了大量的创新 PieCloudDB 内核团队拥有强悍的Postgres内核代码掌控能力 聚集下推 预计算 文件剪裁 针对云环境的特性,提供更多高阶的优化 @2022 OpenPie. All rights reserved. OpenPie Confidential 安全性增强 生态建设 全链路优化 @2022 OpenPie. All rights reserved. OpenPie Confidential • 透明加密技术 • 加密用户数据,避免被未经许可人员读出0 码力 | 45 页 | 1.32 MB | 1 年前3云时代下多数据计算引擎的设计与实现
已落地或者正在落地:IoT、金融、新能源、医疗等行业. @2024 OpenPie. All rights reserved. OpenPie Confidential 云时代 数据计算 多数据模态支持 广泛的生态支持 “一份数据,多引擎计算”的述求 让数据流动起来 @2024 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 简介 Janm)支持 S3/HDFS/Posix. • 架构:Share Nothing on share storage. • 丰富的外围产品支持. • 将来会支持单机和HTAP. Postgres生态 软件交付版本 (最新版本:v2.11) • 社区版 • 企业版 • CoC(云上云)版 @2024 OpenPie. All rights reserved. OpenPie Confidential0 码力 | 15 页 | 3.09 MB | 1 年前3PieCloudDB 的云原生之路
中国的云原生数据库世界级智力高地 11月 4月 获得元禾重元和东吴证券 Pre-A 轮投资 标志着企业进入快速成长期 拓数派 正式成立 成立杭州总部、北京研发中心、 上海全球品牌战略与生态发展中心 12月 获得腾讯投资第二轮持续加注投资 得到众多知名投资机构的关注和认可 蓬 勃 发 展 的 拓 数 派 引 领 数 据 计 算 时 代 的 到 来 9月 杭州萧山区政府“一事一议” 求。 IvorySQL开源数据库社区 文本 时间序列分析 机器学习 数据转换 深度学习 传统BI 地理信息 PieCloudDB 设计原则:100%符合DB标准 100%兼容DW生态体系 Ø 关系型数学 Ø 完整的 SQL 标准 Ø ACID 事务 IvorySQL开源数据库社区 PART 03 PieCloudDB 架构特点 IvorySQL开源数据库社区 数仓0 码力 | 47 页 | 1.80 MB | 1 年前3PieCloudDB云原生数仓虚拟化之路
与中国人民大学成⽴实习基地,打造 中国的云原生数据库世界级智力高地 11月 4月 获得元禾重元和东吴证券Pre-A轮投资 标志着企业进入快速成长期 拓数派 正式成立 成⽴杭州总部、北京研发中心、 上海全球品牌战略与生态发展中心 12月 获得腾讯投资第⼆轮持续加注投资 得到众多知名投资机构的关注和认可 蓬 勃 发 展 的 拓 数 派 引 领 数 据 计 算 时 代 的 到 来 9月 杭州萧山区政府“⼀事⼀议”⽀ 文本 时间序列分析 机器学习 数据转换 深度学习 传统BI 地理信息 P i e C l o u d D B 设 计 原 则 : 1 0 0 % 符 合 D B 标 准 100%兼容DW生态体系 Ø 关系型数学 Ø 完整的SQL 标准 Ø ACID 事务 @2022 OpenPie. All rights reserved. OpenPie Confidential 数仓虚拟0 码力 | 44 页 | 1.64 MB | 1 年前3云原生虚拟数仓 PieCloudDB ETL 方案设计与实现
存算分离,元数据/缓存/计算/云存储 01 02 03 04 各模块可以独立伸缩,模块间接口统一 每一组计算节点组成一个集群,多集群共享 元数据和存储系统 计算节点高度并行 05 兼容 PostgreSQL 生态 PieCloudDB eMPP 分布式架构 导出 (Extract) 转换 (Transform) 导入 (Load) 文件拷贝 CDC模式 流式传输 ETL本质是不同系统 (数据组织形式)之0 码力 | 29 页 | 5.24 MB | 1 年前3大模型时代下向量数据库的设计与应用
(filtered) P2 (filtered) 向量数据库 • 存储向量和原始实体(文字/图像/语音)及元信息,并将它们关联起来 • 对向量数据建立索引,可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发,为其开发向量搜索及索引算法 PieCloudVector •0 码力 | 28 页 | 1.69 MB | 1 年前3
共 11 条
- 1
- 2