πDataCS赋能工业软件创新与实践
,AI数学模型、数据和 计算三者互为增强,全面升级⼤数据系统⾄⼤模型时代 ,赋能⾏业AI场景应用。 具备整体数据平台⽅案,支持多模数据处理(结构化、半结构化 以及非结构化数据),实现数据共享和分析。 软件优化 + 新硬件(FPGA)加速,实现数据全链路的性能飞跃, 让数据存储、SQL查询、向量计算以及机器学习等能⼒全面升级。 @2024 OpenPie. All rights reserved 全新的优化器「达奇」 PieCloudDB可以更智能⾼效地⽣成统计信息,并⽣成更⾼ 效的查询计划,达奇优化器支持聚集下推,预计算,Block Skipping等⾼级特性,全面满⾜各种复杂的分析查询需求。 @2024 OpenPie. All rights reserved. OpenPie Confidential eMPP分布式专利技术 架构阐述: 1. 云原⽣虚拟数仓,采用e 该企业依托于集团内部需求,建设了⼀个云平台,提供基础设施服务。随着⼦公司接⼊的数量越来越多,数据量也急剧增长, 原本采用的Hadoop平台⽆法满⾜业务的分析需求,主要存在以下问题: Ø 数据同步和采集周期较长,实时性很差 Ø 数据量达到PB级别,数据分析性能直线下降 Ø 采用较多开源组件,技术栈太⼴,数据应用开发周期长 Ø Hadoop集群运维成本较⾼,技术响应慢 解决⽅案: 采用PieCl0 码力 | 36 页 | 4.25 MB | 1 年前3PieCloudDB Database 产品白皮书
13 15 16 openpie | PiecloudDB 基于 eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 百岗 行业背景 石油是工业的血液,数据是数字经济的“石油”,数据分析则是石油精炼。 随着信息技术的发展,互联网应用的加速普及,人类进入了数字经济时代。进入二十一世纪以后,随着移动互联网技 术、物联网技术、5G等技术的发展,全球数据圈 (Global Datasphere) 击需视各2nk 2n 2n6 201 2018 20192070 20717022 2973 2024 2025 1DC:全球数据圈预测 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算 (Data Computing) 的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 化转型面临巨大挑战,急 容计算资源和存储资源,在扩缩容、运维、迁移上都存在一, 报表结! 传统数据仓库无法及时扩 导致大数据系统天 价值所带来的商业机会 用户在扩 必须同时扩 企业遇到负 时刻或需要紧急得到某个 法弹性、快速地分析业务数据,错失了充分挖掘数据 Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 传统数据仓库价格高昂的软硬件、开发运维人员的高晶薪资需0 码力 | 17 页 | 2.68 MB | 1 年前3云原生虚拟数仓PieCloudDB Database产品白皮书
关于OpenPie 附录:术语表 3 3 3 4 5 6 7 7 8 11 13 15 16 目 录 行 业 背 景 石油是工业的血液,数据是数字经济的“石油”,数据分析则是石油精炼。 随着信息技术的发展,互联网应用的加速普及,人类进入了数字经济时代。进入二十一世纪以后,随着移动互联网技 术、物联网技术、5G等技术的发展,全球数据圈(Global Datasphere)呈指数级递增, 。数据被称为数字经济时代的“石 油”,如同石油驱动了工业化时代的进步,大数据将推动智能化与数字化时代的发展。 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算(Data Computing)的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 化转型面临巨大挑战,急需 扩容时,必须同时扩 容计算资源和存储资源,在扩缩容、运维、迁移上都存在一定的挑战。当企业遇到负载高峰时刻或需要紧急得到某个 报表结果时,传统数据仓库无法及时扩资源,导致大数据系统无法弹性、快速地分析业务数据,错失了充分挖掘数据 价值所带来的商业机会。 传 统 数 据 仓 库 架 构 成 本 高 昂 传统数据仓库价格高昂的软硬件、开发运维人员的高昂薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产0 码力 | 17 页 | 2.02 MB | 1 年前3云原生虚拟数仓 PieCloudDB 的架构和关键模块实现
Confidential • 在世界范围内的统计信息显示,Nosql和数据湖已经不在数据分析 领域占有主要市场 • Nosql和数据湖缺少很多支持数据分析的重要特性 o 缺少在高并发场景下的隔离性和一致性 o 和现有的BI工具很难集成 • 关系型数据库已经重新成为数据分析的主要平台 NoSQL 和数据湖已经不再是数据分析的主要平台 @2022 OpenPie. All rights reserved OpenPie Confidential • Nosql本身对于高级分析支持差 o 图形,地理信息 • Nosql对于复杂查询的支持差 NoSQL和数据湖很难胜任数据分析的工作场景 @2022 OpenPie. All rights reserved. OpenPie Confidential • 使用数据湖为基础进行数据分析需要多个组件进行集成部署,多个 组件的配合需要大量的开发工作 • • 许多缺乏 ANSI SQL 支持,需要专门的技术技能 • 专用引擎/工具(例如图形数据库)通常难以与记录系统集成,限制 了分析和创新的操作化 NoSQL和数据湖为基础的基础设施需要的分析工具不容易集成和部署 @2022 OpenPie. All rights reserved. OpenPie Confidential • 公有云无限的计算池可以提供理想的弹性计算资源 • 公有云廉价且无限容量的对象存储0 码力 | 43 页 | 1.14 MB | 1 年前3云原生数据库 PieCloudDB eMPP架构设计与实现
once语义 智能化云原⽣平台 (数据服务平台) 面向用户,做到开箱即用:离数据分析更近, 离繁琐操作更远; 面向运维,降低部署门槛:在不同的基础设施都能发挥 实力; 面向管理,让管理更轻松:让数据分析运行更透明; 设计目的 智能化云原⽣平台:⾯向⽤户、开箱即⽤ • 降低上⼿难度 — 让⽤户享受数据分析的乐趣 • 使⽤⻔槛低了 — 扩⼤平台受众 • 让更多⽤户离数据更近 — ⼀个数仓多个计算集群同时运⾏ • 针对不同⽤户业务负载或者不同场景,可以选择不同 集群进⾏数据计算 云原⽣平台⽀持 • 快速启动集群,随时可以关停,随时可以回收 • 结合集群操作记录,⽤户可以⽤最低的成本完成数据分析 云原⽣平台同时提供 • 根据⾓⾊访问模型设计的权限系统,所⻅即可管 • ⽆论是平台功能还是数据库权限都可以在平台操作 PieCloudDB 的将来 • 理想的PieCloudDB:可靠、⾼效、简单、完备的SQL数据平台,0 码力 | 31 页 | 1.43 MB | 1 年前3PieCloudDB 的云原生之路
for New Discoveries”「数据计算,只为新 发现」为使命,成立后的短短10个月时间内,完成了包括头部 产业基金、东吴证券、元禾重元和政府科创平台在内的连续三 轮战略融资。 旗下云原生分析型数据库 PieCloudDB,以云计算架构为设 计基础,首创全新 eMPP 分布式技术,帮助企业建立竞争壁垒 的同时,实现数据价值最大化,并在新基建中承担可靠和可控 的世界级云数据库底座。 IvorySQL开源数据库社区 PieCloudDB 可以更智能高效地生成统计信息,并生成更高 效的查询计划,达奇优化器支持聚集下推,预计算,Block Skipping 等高级特性,全面满足各种复杂的分析查询需求。 IvorySQL开源数据库社区 文本 时间序列分析 机器学习 数据转换 深度学习 传统BI 地理信息 PieCloudDB 设计原则:100%符合DB标准 100%兼容DW生态体系 Ø 关系型数学0 码力 | 47 页 | 1.80 MB | 1 年前3PieCloudDB云原生数仓虚拟化之路
for New Discoveries”「数据计算,只为新发现」为使命, 成立后的短短10个月时间内,完成了包括头部产业基金、东吴证券、元 禾重元和政府科创平台在内的连续三轮战略融资。 旗下云原生分析型数据库PieCloudDB,以云计算架构为设计基础,首创 全新eMPP分布式技术,帮助企业建立竞争壁垒的同时,实现数据价值最 大化,并在新基建中承担可靠和可控的世界级云数据库底座。 打造立足于国内 ,并⽣成更⾼ 效的查询计划,达奇优化器支持聚集下推,预计算,Block Skipping等高级特性,全面满足各种复杂的分析查询需求。 @2022 OpenPie. All rights reserved. OpenPie Confidential 文本 时间序列分析 机器学习 数据转换 深度学习 传统BI 地理信息 P i e C l o u d D B 设 计 原 则 : 10 码力 | 44 页 | 1.64 MB | 1 年前3云时代下多数据计算引擎的设计与实现
“一份数据,多引擎计算”的述求 让数据流动起来 @2024 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 简介 一款云原生分布式 分析型数据库 • 元数据、用户数据、计算完全分离. • 用户数据(code name: Janm)支持 S3/HDFS/Posix. • 架构:Share Nothing on share storage HTAP 的 OLTP 用. @2024 OpenPie. All rights reserved. OpenPie Confidential 向量化 执行计算引擎 • SIMD深度优化 • 核心分析型计算算子完成 • 大量高杠杆率计算特性计划或者进行中 • runtime filter • low-cardinality string aggregation • late materialization0 码力 | 15 页 | 3.09 MB | 1 年前3云原生数据库PieCloudDB 性能优化之路
for New Discoveries”「数据计算,只为新发现」为使命, 成立后的短短10个月时间内,完成了包括头部产业基金、东吴证券、元 禾重元和政府科创平台在内的连续三轮战略融资。 旗下云原生分析型数据库 PieCloudDB,以云计算架构为设计基础,首 创全新 eMPP 分布式技术,帮助企业建立竞争壁垒的同时,实现数据价 值最大化,并在新基建中承担可靠和可控的世界级云数据库底座。 PostgreSQL优化器简介0 码力 | 26 页 | 711.44 KB | 1 年前3大模型时代下向量数据库的设计与应用
gpu搜索的特殊路径 • 避免并发调用gpu • 查询请求按批单线程提交 PieCloudVector • 兼容国产硬件和操作系统 PieCloudVector • 通过信通院测试 案例分析 - 东吴证券秀财gpt • 采用自研大模型东吴秀财GPT + LangChain开发框架 + PieCloudVector向量数据库构建了AIGC应 用平台,接入了交易应用的结构化数据和非结构0 码力 | 28 页 | 1.69 MB | 1 年前3
共 11 条
- 1
- 2