Greenplum开源MPP数据库介绍
Greenplum 开源MPP数据仓库介绍 李晓亮Greenplum工程师、内核团队经理 Confidential │ ©2022 VMware, Inc. 2 Agenda Ø Greenplum简介 Ø Greenplum的MPP架构 Ø 分布式优化器: Postgres planner 和 ORCA Ø 分布式事务和执行 Ø Greenplum存储 Greenplum生态 Ø Greenplum 7 Confidential │ ©2022 VMware, Inc. 3 Greenplum简介:什么是Greenplum? 基于PostgreSQL、开源、分布式MPP、ACID完备、为OLAP优化的关系型数据仓库。 https://greenplum.org https://github.com/greenplum-db/gpdb Confidential 2010年被EMC收购 Ø 2012年成为Pivotal的一部分 Ø 2015年开源,可能是世界上第一个成熟商用的开源 MPP数据仓库 Ø 2019年底跟随Pivotal被VMware收购 Confidential │ ©2022 VMware, Inc. 5 谁在用Greenplum? Ø 500多付费企业客户 Ø 成千上万的开源用户 Ø 支撑巨大的生产集群: q 250+ servers q 0 码力 | 23 页 | 4.55 MB | 1 年前3深度揭秘Greenplum开源数据库透明加密
深度揭秘Greenplum开源数据库 透明加密 Greenplum 研发工程师 王淏舟 1. 我们所面临的问题 2. 基于pgcypto的数据加密方案 3. GPDB数据透明加密方案设计 4. GPDB数据透明加解密流程 5. 总结 我们所面临的问题 什么是Greenplum数据库 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb Recall pgcypto的问题 一款开源的HTAP数据库: • pgcypto的问题 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb Recall again GPDB透明加密 一款开源的HTAP数据库:0 码力 | 48 页 | 10.19 MB | 1 年前3Pivotal Greenplum 5.0 - 开源MPP 数据库的不二之选
开源 MPP 数据库的不二之选: Pivotal Greenplum 5.0 姚延栋 yyao@pivotal.io 开放源代码 SQL 企业级数据库 生态系统 MPP 高速数据加载 多态存储 表‘SALES’ 列存储 行存储 1月 一年前 二年前 外部表 12月 11月 4月0 码力 | 18 页 | 913.39 KB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
白皮书 开源 Greenplum 新篇章: 兼容欧拉开源操作系统的数据平台 支持国产生态的高级分析数据平台 作者:Greenplum 中文社区、 欧拉开源社区 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 ............................................................................................ 4 欧拉开源操作系统 .............................................................................................. ............................................................................................ 6 欧拉开源操作系统平台架构 ..........................................................................................0 码力 | 17 页 | 2.04 MB | 1 年前3Greenplum 介绍
介绍 Greenplum 是全球领先的开源大数据平台,是能够提供包含实时处理、弹性扩容、混合负载、云 原生和集成数据分析等强大功能的大数据引擎。 著名分析机构 Gartner 2019 年报告中,在经典数据分析领域 Greenplum 全球排名第三,实时分 析领域全球排名并列第四。Greenplum 是两个领域中排名前十的产品中的唯一一款开源产品。 Greenplum 基于 储、三星、戴尔、福特、 爱立信等,国内客户包括深交所、建设银行、民生银行、广大银行、浦发银行、航旅纵横、中国 移动、华为等。自 2015 年开源以来,更是吸引了包括阿里云、百度云、中移动、旷世、去哪儿 网、易观、腾云科技、饿了么、金风科技在内大量开源用户。 Greenplum 大数据平台的优势 ● 一次打包到处运行的平台:部署灵活,不受限于硬件环境和平台,无论裸机、私有云、公 工具、可视化工具和数据分析工具, 向下可以连接各种 ETL 工具、各种数据源和各种格式的数据等。 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache 顶级项目 MADlib,Greenplum 可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib 提供 SQL 接口进行数据分析,大大降低了数据分 析的门槛;MADlib0 码力 | 3 页 | 220.42 KB | 1 年前3Greenplum 精粹文集
传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个实例且实现并行 承载了并行 查询计划生产和 Dispatch 分发(QD)、协调节点上 QE 执行器的并 行工作、负责数据分布、Pipeline 计算、镜像复制、健康探测等等诸 多任务。 在 Greenplum 开源以前,据说一些厂商也有开发 MPP 数据库的打算, 其中最难的部分就是在 Interconnect 上遇到了障碍,可见这项技术的 关键性。 Greenplum 集群架构 Big Date2.indd Postgresql 而不是其它的? 我想大家可能主要想问为什么是 Postgresql 而不是 Mysql ?(其实, 还有很多开源关系型数据库,但相比这两个主流开源库,实在不在 一个起跑线上)。我们无意去从技术点上PK这两个数据库孰优孰劣, 我相信它们的存在都有各自的特点,它们都有成熟的开源社区做支 持,有各自的庞大的 fans 群众基础。我们认为,Greenplum 选择 Postgressql 有以下考虑:0 码力 | 64 页 | 2.73 MB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
白皮书 Pivotal Greenplum 5: 新一代数据平台 开源、支持多种云的高级分析数据平台 作者:Keaton Adams、 Dan Baskette、 Cesar Rojas pivotal.io/cn 白皮书 2 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 目录 5:新一代数据平台 .........................................................................................3 以开源创新替代专有分析环境 ........................................................................................ Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 关于本白皮书 Pivotal 最近推出全球第一个开源、支持多云的高级分析数据平台——Pivotal Greenplum 5。本白皮书着眼介绍 Greenplum 5 的核心特征,及多年来围绕该平台发展出的生态系统。 摘要 Pivotal Greenplum0 码力 | 9 页 | 690.33 KB | 1 年前3Greenplum机器学习⼯具集和案例
Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com Greenplum: 新一代开源大数据平台 2017.thegiac.com Greenplum 集群 2017.thegiac.com ANALYTICAL APPLICATIONS NATIVE INTERFACES thegiac.com 强⼤大的分析能⼒力力 ● 机器器学习 ● 图形分析 ● 统计分析 MPP系统上的可扩展应⽤用 Apache上的开源项⽬目 ● 发布了了 6 个版本 ● Apache 顶级项⽬目 Pivotal Greenplum PostgreSQL 基于SQL的数据库内置的机器器学习库 更好的并行度 • 算法充分利用 MPP 架构实现并行 • 更好的可扩展性 • 算法随着数据扩充而线性扩展 • 更高的预测精准度 • 适用更多数据,而不是抽样 • 顶级 ASF 开源项目 • 社区驱动开发模式 MADlib 特性 2017.thegiac.com 客户端 数据库服务器器 Master Segment 1 Segment 2 Segment0 码力 | 58 页 | 1.97 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
UDW Copyright © 2012-2021 UCloud 优刻得 6/206 产品架构 产品架构 数据仓库(UCloud Data Warehouse)是⼤规模并⾏处理数据仓库产品,基于开源的Greenplum开发的⼤规模并发、完全托管的PB级数据仓库服务。UDW可以通过SQL让数据分析更简 单、⾼效,为互联⽹、物联⽹、⾦融、电信等⾏业提供丰富的业务分析能⼒。⽀持MADlib扩展,客 Copyright © 2012-2021 UCloud 优刻得 11/206 计算密集型 dc1.8xlarge 28核 168G 3800G(SSD) 选择数据仓库类型:Greenplum 是 EMC 开源的数据仓库产品、Udpg 是基于 PostgreSQL 开发的⼤规模并⾏、完全托管的 PB 级数据仓库服务。 选择节点个数:UDW 是分布式架构、所有节点数据都是双机热备,实际可⽤总容量略⼩于节点 数据仓库,例如:JDBC 和 ODBC。 ⽬前经过测试的有:Zeppelin 和 SuperSet。 ⼀、 ⼀、 UDW 接⼊ 接⼊ Zeppelin Zeppelin 简介 简介 Zeppelin 是⼀个开源的 Apache 的孵化项⽬. 它是⼀款基本 web 的 notebook ⼯具,⽀持交互式数据分析。通过插件的⽅式接⼊各种解释器(interpreter),使得⽤⼾能够以特定的语⾔ 或数据处理后0 码力 | 206 页 | 5.35 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 Greenplum 的 成长,见证了 Greenplum 从闭源到开源的成长历程,一路给 Greenplum 做各种补丁 脚本,也看到了 Greenplum 的大幅进步,甚至我们以前的小技巧也不再需要,持续的 进步,带来的是生态的蓬勃发展。 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 11 - 第一章:GP 数据库架构 目前 GP 数据库已经开源多年,多年来一直由 Pivotal 公司商业运营,在 2020 年,Pivotal 被兄弟公司 VMWare 收购,由 VMWare 继续运营。近年来,Greenplum 在国内建立了一个较大规模的 缩算法。下表是可用的压缩算法: 行或列 可用压缩类型 支持压缩算法 行 表级别 ZLIB、ZSTD 和 QUICKLZ(开源版本不可用) 列 列级别 和 表级别 RLE_TYPE、ZLIB、ZSTD 和 QUICKLZ(开源版本不 可用) 使用库内压缩要求Instance所在的机器具备较强的CPU来压缩和解压缩数据,不 过,就目前的主流配置来说,应付Z0 码力 | 416 页 | 6.08 MB | 1 年前3
共 15 条
- 1
- 2