PieCloudDB 的云原生之路
IvorySQL开源数据库社区 IvorySQL 用户组技术沙龙北京站 IvorySQL开源数据库社区 PieCloudDB 的云原生之路 姓名:吴疆 公司:拓数派 职位:产品及推广总监 IvorySQL开源数据库社区 吴疆 IvorySQL开源数据库社区 打造立足于国内 基础数据计算领域的世界级高科技创新驱动机构 杭州拓数派科技发展有限公司(又称“OpenPie”),以 “Data PieCloudDB,以云计算架构为设 计基础,首创全新 eMPP 分布式技术,帮助企业建立竞争壁垒 的同时,实现数据价值最大化,并在新基建中承担可靠和可控 的世界级云数据库底座。 IvorySQL开源数据库社区 2021 2022 当天即获得腾讯投资天使轮投资 成为 Day-1 准独角兽 7月 与中国人民大学成立实习基地,打造 中国的云原生数据库世界级智力高地 11月 4月 获得元禾重元和东吴证券 IvorySQL开源数据库社区 免费试用 PieCloudDB 云上云版:https://app.pieclouddb.com IvorySQL开源数据库社区 目录 数据库的云原生远景 01 云原生数据库 PieCloudDB 简介 02 PieCloudDB 的架构特点 03 总结 04 IvorySQL开源数据库社区 PART 01 数据库的云原生远景 IvorySQL开源数据库社区0 码力 | 47 页 | 1.80 MB | 1 年前3兼容龙蜥的云原生大模型数据计算系统:πDataCS
技术部门,是Oracle Cloud Control的分布式调动引擎的 主要贡献者之一。 • 因为参与Pivotal的拆分创建、C轮融资和IPO成功,以及主导的Greenplum产品在全球范围的开源影 响力,被《数字商业周刊》选为2019年度封面人物。(《数商周刊》报道) 拓数派创始人、董事长兼首席执行官 • 冯雷带领团队实现数据库云原生虚拟化突破,打造的PieCloudDB(πCloudDB)数据库是来自本土的 生态丰富,对结构化数据、半结构化数据以及非结构化数据都支持,可以很好的 完成各种业务场景的数据处理需求。但是对于开发的要求比较高,需要掌握多种 组件的不同使用方法,业务开发周期会比较久。 国外开源软件,与国产软硬件兼容性差,不符合信创趋势,也无法直接利用云资 源的弹性能力。组件太多,导致集群部署和后期运维管理很麻烦,市场上相关人 才储备量不多,技术兜底依赖于Cloudera,国内第三方公司主要是基础运维和开 企业版/社区版 云上云版 ü 领先的数仓虚拟化技术 ü 云原生Serverless架构 ü 第三方计费模式 ü 持续产品升级,体验产品最新特性 ü 丰富的社区活动,赋能社区用户 ü 强大的开发者支持 ü 云原生eMPP专利技术支持与赋能 ü 7*24小时产品故障服务响应 ü 基于业务需求的专家团队服务 ü 国产化软硬件,技术自主可控 ü 存算分离支持独立扩容 ü 全面适配信创环境0 码力 | 29 页 | 7.46 MB | 1 年前3πDataCS赋能工业软件创新与实践
⽣态丰富,对结构化数据、半结构化数据以及非结构化数据都支持,可以很好 的完成各种业务场景的数据处理需求。但是对于开发的要求比较⾼,需要掌握 多种组件的不同使用⽅法,业务开发周期会比较久。 国外开源软件,与国产软硬件兼容性差,不符合信创趋势,也⽆法直接利用云 资源的弹性能⼒。组件太多,导致集群部署和后期运维管理很麻烦,市场上相 关⼈才储备量不多,技术兜底依赖于Cloudera,国内第三⽅公司主要是基础运 企业版/社区版 云上云版 ü 领先的数仓虚拟化技术 ü 云原⽣Serverless架构 ü 第三⽅计费模式 ü 持续产品升级,体验产品最新特性 ü 丰富的社区活动,赋能社区用户 ü 强⼤的开发者支持 ü 云原⽣eMPP专利技术支持与赋能 ü 7*24小时产品故障服务响应 ü 基于业务需求的专家团队服务 ü 国产化软硬件,技术自主可控 ü 存算分离支持独立扩容 ü 全面适配信创环境 ,数据量也急剧增长, 原本采用的Hadoop平台⽆法满⾜业务的分析需求,主要存在以下问题: Ø 数据同步和采集周期较长,实时性很差 Ø 数据量达到PB级别,数据分析性能直线下降 Ø 采用较多开源组件,技术栈太⼴,数据应用开发周期长 Ø Hadoop集群运维成本较⾼,技术响应慢 解决⽅案: 采用PieCloudDB作为核⼼数字底座,完成原来CDH(Hadoop)平台的替换,构建了制造业⾏业云的数据中台服务,既面向集团内0 码力 | 36 页 | 4.25 MB | 1 年前3大模型时代下向量数据库的设计与应用
大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 支持向量标量混合查询 PieCloudVector • 使用faiss开源算法库做为向量搜索引擎 • 支持主流的ann算法,如ivf和hnsw等 PieCloudVector • 使用faiss开源算法库做为向量搜索引擎 • 支持向量编码和压缩如PQ等 PieCloudVector • 使用faiss开源算法库做为向量搜索引擎 • 支持二进制索引 • 支持多级索引如HNSW+IVF等0 码力 | 28 页 | 1.69 MB | 1 年前3PieCloudDB Database 产品白皮书
量提高查询性能。此外,PiecloudDB PiecloudDB 还支持查询优化器Orca。Orca是一款开源的、基于Cascades 模型的模块化查询优化器, 可以帮助用户对SQL进行优化,生成高效的查询计划。 此外,PieCloudDB 兼容 ORCA 优化器 (DORCA 是一款开源的、基于 Cascades 模型的模块化查询优化器,可以帮助用 户对 SQL 进行优化,生成高效的查询计划) HDFS、MySQL 、Oracle等外部数据。PieCloudDB 支持JS5ON,XML,Parquet以及 二进制数据等格式,同时,PieCloudDB 既支持用户利用过程语言自行开发模块进行数据分析也原生兼容开源机器学 习库Apache MADlib,从而可以原生实现一些高级机器学习功能。该拓展提供数学、统计学以及机器学习方法,包括 但不限于线性回归、关联规则、贝叶斯分类、决策树和随机森林等算法支持。同时 Openpie 在读取 少量数据时,提高Cache命中率,减少MO 次数。 pieCloudDB实现了存储中立,支持公有云、私有云、混合云。PieCloudDB 除支持自己的存储格式,还支持部署在存 储系统的开源格式,例如 Parquet。 此外,PieCloudDB 针对对象存储进行了优化,对分布式处理和写处理进行了增强,在特定查询场景下,避免了重组 操作,提高了 /0O 效率。 * eMPP 分布式技术0 码力 | 17 页 | 2.68 MB | 1 年前3云原生虚拟数仓PieCloudDB Database产品白皮书
等测试,实现 了包括聚集下推、Block Skipping 等功能模块,大大缩短执行时间,高效的数据查询提高了数据分析的实时性。 此外,PieCloudDB 兼容 ORCA 优化器(ORCA 是一款开源的、基于 Cascades 模型的模块化查询优化器,可以帮助用 户对 SQL 进行优化,生成高效的查询计划)。 PieCloudDB 通过独特的设计,具备原生多租户能力,每个租户有自己的数据库和虚拟数仓。不同的租户互相隔离, 通过预计算每个块(block) 中列聚集信息,在执行期间跳过非必要的数据块,减少数据读取量提高查询性能。此外,PieCloudDB PieCloudDB 还支持查询优化器Orca。Orca是一款开源的、基于Cascades 模型的模块化查询优化器, 可以帮助用户对SQL进行优化,生成高效的查询计划。 湖仓一体化分析 PieCloudDB 支持统一的资源管控,通过云原生存储引擎支持多种存 、Oracle等外部数据。PieCloudDB 支持 JSON,XML, Parquet以及 二进制数据等格式,同时,PieCloudDB 既支持用户利用过程语言自行开发模块进行数据分析也原生兼容开源机器学 习库 Apache MADlib,从而可以原生实现一些高级机器学习功能。该拓展提供数学、统计学以及机器学习方法,包括 但不限于线性回归、关联规则、贝叶斯分类、决策树和随机森林等算法支持。同时0 码力 | 17 页 | 2.02 MB | 1 年前3云原生数据库 PieCloudDB eMPP架构设计与实现
• Linux/Unix内核和系统开发、虚拟化(芯⽚KVM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 愿景:安全可靠 使用简单 功能齐全 性能极致 传统分布式MPP架构痛点 缺乏弹性 业务使用不灵活 • MPP架构:分布式,海量数据并行处理 • e代表弹性(elastic) 完善的Postgres生态 为什么选择Postgres? • 关于Postgres • 公司中⽴,开源协议友好,国际⼀流⼯程⽔准的先进开源数据库 • Postgres对存储扩展,插件扩展⽀持友好 • 天然⾃带⼀定的多模⽀持 (原⽣或者插件) • 采⽤度和流⾏度持续上升 • 优秀的⽣态 • 我们的选择 • 很多功能不⽤也没必要重新造轮⼦0 码力 | 31 页 | 1.43 MB | 1 年前3PieCloudDB云原生数仓虚拟化之路
企业版/社区版 云上云版 ü 领先的数仓虚拟化技术 ü 云原⽣Serverless架构 ü 第三⽅计费模式 ü 持续产品升级,体验产品最新特性 ü 丰富的社区活动,赋能社区⽤户 ü 强⼤的开发者⽀持 ü 云原⽣eMPP专利技术⽀持与赋能 ü 7*24⼩时产品故障服务响应 ü 基于业务需求的专家团队服务 ü 国产化软硬件,技术⾃主可控 ü 存算分离⽀持独⽴扩容 ü 全⾯适配信创环境0 码力 | 44 页 | 1.64 MB | 1 年前3云时代下多数据计算引擎的设计与实现
赋能更多的计算形态. • 云上计算调度. @2024 OpenPie. All rights reserved. OpenPie Confidential 计算外延 • 仓湖一体:仓衍生支持开源表格式 • 先读,Iceberg on hdfs/s3读取已基本支持. • 长远不排除”一等公民”. • 联邦查询. @2024 OpenPie. All rights reserved. OpenPie0 码力 | 15 页 | 3.09 MB | 1 年前3PieCloudDB Database V2.1 版本说明
读取的文件给各个执行节点,降低查询的启动代价。 • 原生格式存储:在 HDFS/NAS 系统上支持原生存储格式。 • 对 Orca 的支持:PieCloudDB 支持查询优化器 Orca。Orca 是一款开源的、基 于 Cascades 模型的模块化查询优化器,帮助用户对 SQL 进行优化,生成高效的查询计 划。 • 支持超大数据量字段 • 支持快速 ETL/ELT: Kafka0 码力 | 3 页 | 257.15 KB | 1 年前3
共 11 条
- 1
- 2