PieCloudDB 的云原生之路
基础数据计算领域的世界级高科技创新驱动机构 杭州拓数派科技发展有限公司(又称“OpenPie”),以 “Data Computing for New Discoveries”「数据计算,只为新 发现」为使命,成立后的短短10个月时间内,完成了包括头部 产业基金、东吴证券、元禾重元和政府科创平台在内的连续三 轮战略融资。 旗下云原生分析型数据库 PieCloudDB,以云计算架构为设 计基础,首创全新 eMPP 分布式技术,帮助企业建立竞争壁垒 数据:云上数据既是隔离也是连通。从安全的角度是隔离,同时具 备数据共享的能力。 例如:投资管理系统和财务管理系统可以各自管理,按需分享。 计算:云上计算资源可以弹性分配。有查询计算任务的时候按需启动, 按照使用时间和规模计算成本,而不是购买大量服务器静置为不确定 的使用额外支付成本。 发现:在云上,对计算模型以更低成本提供指数级的存储和计算资源, 帮助甲方的业务模型发现新洞察或者提高精准度,从而建立竞争壁垒。 PieCloudDB 技术突破:数仓虚拟化 云原生存算分离架构 运用元数据-计算-数据分离的三层架构,实现云上存储资源 与计算资源的独立管理。云上计算资源可弹性分配,有查询 计算任务的时候按需启动,按照使用时间和规模计算成本。 eMPP 分布式专利技术 在云上,PieCloudDB 利用 eMPP(elastic Massive Parallel Processing)架构,实现多集群并发执行任务。企0 码力 | 47 页 | 1.80 MB | 1 年前3PieCloudDB云原生数仓虚拟化之路
Confidential 杭州拓数派科技发展有限公司(又称“OpenPie”),以“Data Computing for New Discoveries”「数据计算,只为新发现」为使命, 成立后的短短10个月时间内,完成了包括头部产业基金、东吴证券、元 禾重元和政府科创平台在内的连续三轮战略融资。 旗下云原生分析型数据库PieCloudDB,以云计算架构为设计基础,首创 全新eMPP分布式技术,帮助企业建立竞争壁垒的同时,实现数据价值最 数据:云上数据既是隔离也是连通。从安全的⾓度是隔离,同时具 备数据共享的能⼒。 例如:投资管理系统和财务管理系统可以各⾃管理,按需分享。 计算:云上计算资源可以弹性分配。有查询计算任务的时候按需启动, 按照使⽤时间和规模计算成本,⽽不是购买⼤量服务器静置为不确定 的使⽤额外⽀付成本。 发现:在云上,对计算模型以更低成本提供指数级的存储和计算资源, 帮助甲方的业务模型发现新洞察或者提高精准度,从⽽建⽴竞争壁垒。 oudDB技术突破:数仓虚拟化 云原生存算分离架构 运用元数据-计算-数据分离的三层架构,实现云上存储资源与 计算资源的独⽴管理。云上计算资源可弹性分配,有查询计 算任务的时候按需启动,按照使⽤时间和规模计算成本。 eMPP分布式专利技术 在云上,PieCloudDB利⽤eMPP(elastic Massive Parallel Processing)架构,实现多集群并发执行任务。企业可灵活0 码力 | 44 页 | 1.64 MB | 1 年前3PieCloudDB:云原生分布式虚拟数仓的诞生之旅
(cont.) • 为什么我们觉得数据库云原⽣很重要? • 破除数据隔离(⼀份数据就好). • 否则⼀致性问题、也浪费存储空间. • 数据作为新的⽣产要素要流通起来才有更⼤价值. • 参考云被认同的时间线. • 弹性伸缩(成本 & 性能 & 灵活). • 云对于⼩中⼤客⼾都有价值. @2022 OpenPie. All rights reserved. OpenPie Confidential Confidential 构建之路 - 数据存储 • 格式为什么不直接使⽤Parquet, etc? • 我们不需要存储schema. • 原⽣Postgres感知的存储格式:⽐如避免⼀些额外的反序列化. • 更加灵活可控实现. • …... • 但是我们还是可通过foreign data wrapper访问Parquet, etc. @2022 OpenPie. All rights reserved0 码力 | 24 页 | 2.01 MB | 1 年前3PieCloudDB Database 产品白皮书
服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数据计算时,所有机器同时并行计算,理论上最 把计算时间降低到单机部署的 1/n (n为机器数量) ,节省了海量数据的处理时间。 传统数据仓库架构 然而,随着数据量的不断尝升,企业对数据仓库的要求也越来越高,在使用过程中,传统 MPP 数据库解决方案迎来 了一系列的瓶颈: 传统数据仓库的计算和存情是| 数据库的扩 容和升级时,由于传统数据仓库架构存储和计算的紧密耦合,往往需要企业花费巨大的运维和时间成本,且操作繁 琐。 木桶效应 传统 MPP 数据仓库架构存在“木桶效应”,集群整体执行速度取决于最“短板的”节点的性能。因此,一个节点的 表现往往会 “拖幸”整个集群的性能,导致查询速度变慢。 随卷时间的推移,业务的增长,企业往往需要在1-2年后 对集群增加计算节点,此时,无论新的计算节点性能如 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术 栈,技术的更新迁代迅速,相关人员需保持积极的知识更新意识。根关人才市场较小,人才芽乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 云时代的数据处理要求 随着数据量和计算能力的爆发式增长,云计算技术的迅猛发展,云原生架构愈受欢迎,云原生时代应运而生。云原生 时代,越来越多的企业将应用向云上迁移,而越来越多的数据也流向云上。公有云带来了众多优势:0 码力 | 17 页 | 2.68 MB | 1 年前3云原生虚拟数仓PieCloudDB Database产品白皮书
存储和计算。假设一个宽表有3亿条记录, MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时,所有机器同时并行计算,理论上最高可以 把计算时间降低到单机部署的 1/n(n为机器数量),节省了海量数据的处理时间。 传统数据仓库的计算和存储是紧密耦合的,计算资源和存储资源按某一比例强绑定,因此用户在扩容时,必须同时扩 容计算资源和存储资源,在扩缩容、运维、迁移上都存在一 容和升级时,由于传统数据仓库架构存储和计算的紧密耦合,往往需要企业花费巨大的运维和时间成本,且操作繁 琐。 木 桶 效 应 传统 MPP 数据仓库架构存在“木桶效应”,集群整体执行速度取决于最“短板的”节点的性能。因此,一个节点的 表现往往会 “拖垮”整个集群的性能,导致查询速度变慢。 随着时间的推移,业务的增长,企业往往需要在1-2年后 对集群增加计算节点,此时,无论新的计算节 维、开发人员要求高,需要相关人员掌握复杂的技术 栈,技术的更新迭代迅速,相关人员需保持积极的知识更新意识。相关人才市场较小,人才匮乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 5 云时代的数据处理要求 随着数据量和计算能力的爆发式增长,云计算技术的迅猛发展,云原生架构愈受欢迎,云原生时代应运而生。云原生 时代,越来越多的企业将应用向云上迁移,而越来越多0 码力 | 17 页 | 2.02 MB | 1 年前3云原生虚拟数仓 PieCloudDB 的架构和关键模块实现
from t1, t2 where t1.a = t2.c; Time travel 到时间点 select * from t1 at ‘2023-03-20 10:30:33’, t2 at ‘2023-03-19 11:32:23’ where t1.a = t2.c; Time travel 到某个时间段之前 select * from t1 before ‘1 day’, t2 before0 码力 | 43 页 | 1.14 MB | 1 年前3πDataCS赋能工业软件创新与实践
破 : 数 仓 虚 拟 化 云原⽣存算分离架构 运用元数据-计算-数据分离的三层架构,实现云上存储资源与 计算资源的独立管理。云上计算资源可弹性分配,有查询计 算任务的时候按需启动,按照使用时间和规模计算成本。 eMPP分布式专利技术 在云上,PieCloudDB利用eMPP(elastic Massive Parallel Processing)架构,实现多集群并发执⾏任务。企业可灵活 的核⼼技术能⼒。 ü 解决关键交付数据的可信度问题 ü 可为建造⽅提供⾼效的数据整理⼿段 ü 自动化创建原本重复⽽机械化的检验⽂本 ü ⼤数据管理分析,提供智能监管及自动控制操作 ü 减少时间成本,降低⼈为出错概率 ü 保证建造项目准确、完整、安全完成交付 ü 国产⼯业软件+国产数据库产业应用落地 ü 自主可控的全流程复杂⼯程调试完⼯数字化应用 ü 在设计阶段接⼊项目的调试计划0 码力 | 36 页 | 4.25 MB | 1 年前3PieCloudDB Database V2.1 版本说明
vacuum 加速。 • 存储引擎 简墨(JANM) 异常处理的优化: 避免各种异常情况下数据残留。 • 简墨(JANM)分布式处理增强:更高效的元数据采集和分发,提升用户查询响 应时间,降低系统负载 • 简墨(JANM)动态分配读取文件增强 dispatch 性能:此优化将动态的分配要 读取的文件给各个执行节点,降低查询的启动代价。 • 原生格式存储:在0 码力 | 3 页 | 257.15 KB | 1 年前3AGI 趋势下的云原生数据计算系统
中国AGI市场自下向上分为基础设施层、模型层、中间层和应用层四层,这四层结构共同构成了中国AGI市场的技术框架。 国内AGI市场分层 中国AGI发展趋势 l 在通往AGI的征途上,AI Agent正逐渐成为探索的核心路径。但随着时间的推移,大模型的一些局限性开始显现,尽管大模型在模仿人类 认知方面取得了显著进步,但要达到真正的通用智能,仍需克服重重困难。因此,AI Agent作为新的研究方向,开始受至越来越多的关注。 AI0 码力 | 26 页 | 2.84 MB | 1 年前3云原生数据库 PieCloudDB : Unbreakable 安全特性剖析
用户合规需求 • 数据安全审计 • 业务安全审计 PART 02 需求和挑战 来自用户的需求(1) • 密钥自主可控 • 主密钥存储于安全区域中 • 密钥不出区 • 加密密钥支持轮换 • 按时间/条件进行密钥轮换 • 无需停机,不中断服务 • 对性能影响小 • 避免额外造成查询延迟 • 不影响批量读取,流式数据写入性能 来自用户的需求(2) • 支持国密标准 • 合规 • 加密算法可选0 码力 | 34 页 | 599.00 KB | 1 年前3
共 15 条
- 1
- 2