Greenplum 分布式数据库内核揭秘
VMware, Inc. Agenda 2 - Greenplum 分布式数据库简介 - Greenplum 集群化概述 - 分布式数据存储与多态存储 - 分布式查询优化器与执行器 - Greenplum 中文社区 3 Confidential │ ©2021 VMware, Inc. Greenplum 分布式数据库简介 Features Confidential │ ©2021 算和并行优化功能,兼容 SQL 标准。拥有独 特的高效的 ORCA 优化器,具有强大、高效的 PB 级数据存储、处理和实时分析能力,同时支持 OLTP 型业务的混合负载。 Greenplum 分布式数据库简介 5 Confidential │ ©2021 VMware, Inc. Greenplum 集群化概述 Coordinator/Segment, Primary/Mirror Confidential Greenplum 分布式数据存储与多态存储 Hash/Randomly/Replicated Confidential │ ©2021 VMware, Inc. 8 数据存储分布化是分布式数据库要解决的第一个问题。 通过将海量数据分散到多个节点上,一方面大大降低了单个节点处理的数据量,另一方面也为处理 并行化奠定了基础,两者结合起来可以极大的提高系统的性能。譬如在 100 个节点的集群上,每0 码力 | 31 页 | 3.95 MB | 1 年前3Greenplum介绍
Greenplum介绍 唐成 - 2011.02.17 汇 报 提 纲 Greenplum VS hadoop Greenplum架构 Greenplum的高可用方案 GP分布式数据库功能介绍 理解GP的查询处理 Greenplum VS hadoop 比较项 Greenplum Hadoop+hive 软件性质 商业软件 开源 Master的primary与mirror之间的同步 就是使用PostgreSQL的日志同步方案。master的 mirror可以在建库时建,也可以在建完greenplum后再 添加。 理解greenplum分布式数据库 理解GP分布式数据库 理解GP的数据分布策略 Hash分布:按分布键对数据时行hash分布,这个hash 分布算法没有公布,只有greenplum内部知道数据是如 何hash分布的。 随机0 码力 | 38 页 | 655.38 KB | 1 年前3Greenplum 架构概览
如上图,我们可以认为 Greenplum(后简称 GP) 就是很多个 PostgreSQL 实例所组成的集群。GP 对外提供统⼀的数据接⼝,并帮助⽤户⾃动完成数据分⽚、并⾏ 查询与聚合等诸多分布式数据库功能 GP 是⼀种典型的 Master-Segment 架构,⼀个 GP 集群通常由⼀个 Master 节点、⼀个 Standby Master 节点以及多个 Segment 节点所组成0 码力 | 1 页 | 734.79 KB | 1 年前3Greenplum 介绍
Greenplum 中文社区尤为活跃,目前约有半数的贡献来自中国开发者,社 区贡献者包括阿里云、中移动等大公司,也有诸多中小公司和数据库爱好者。 开源之后,Greenplum 把敏捷软件开发方法学引入到分布式数据库的开发中,通过使用站立会议、 回顾会议、结对编程、持续集成、测试驱动、单周迭代等敏捷方法建立了高效的快速反馈系统, 大大提高了产品的质量和客户的满意度。Greenplum 5.0 是开源之后发布的第一个稳定版本,大0 码力 | 3 页 | 220.42 KB | 1 年前3Greenplum数据库架构分析及5.x新功能分享
Use Only GPDB:为大数据存储、计算、挖掘而设计 标准 SQL 数据库:ANSI SQL 2008 标准,OLAP,JDBC/ODBC 支持ACID、分布式事务 分布式数据库:线性扩展,支持上百物理节点 企业级数据库:全球大客户超过 1000+ 安装集群 百万行源代码,超过10年的全球研发投入 开源数据库(greenplum.org),良性生态系统0 码力 | 44 页 | 8.35 MB | 1 年前3Greenplum分布式事务和两阶段提交协议
务提交的原子性 ● 可以用于单机集中式系统,由事务管理器协调多个资源管理器;也可以用于分布式系 统,由一个全局的 事务管理器协调各个子系统的局部事务管理器完成两阶段提交 ● 广泛应用于商业分布式数据库 ❏ A节点是事务的协调者(coordinator) ❏ B和C是事务的参与者(participant) 24 两阶段提交与日志操作 写日志写日志 0 码力 | 42 页 | 2.12 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
.................................................................................... - 19 - 第二章:分布式数据库概念 .............................................................................................. Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 21 - 第二章:分布式数据库概念 GP 是一个分布式数据库集群系统。这就意味着在物理上,数据是存储在多个数据 库上的(称为 Instance)。这些独立的数据库通过网络进行通信(称为内联网络)。分 布式数据库的一个基本特征是,用户和 Master)一样方便,数据库内部的分布式实现不需要用户过多的关心,对于 客户端应用来说,访问 GP 数据库与单机数据库没有什么区别。不过,对于开发人员和 DBA 来说,要更好的用好 GP 数据库,还是需要了解和掌握分布式数据库的概念,了解 GP 的架构和工作原理,这样才能更好的发挥 GP 的分布式优势,也就是说,学好这些 知识是极其重要的。和很多 IT 技术一样,入门很容易,精通很难,编者认为,GP 入 门更容易,精0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum 精粹文集
join(据说未来会支持 hash join),而多个大表关联分析时 hash join 是必备的利器,缺少这些关键功能非常致命,将难于在 OLAP 领域充当大任。我们最近对基于 MYSQL 的某内存分布式数据库做 对比测试时,发现其优点是 OLTP 非常快,TPS 非常高(轻松搞定 几十万),但一到复杂多表关联性能就立马下降,即使其具有内存 计算的功能也无能为力,就其因估计还是受到 mysql 在这方面限制。0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 130/206 在绝⼤部分传统数据中,索引都能够极⼤地提⾼数据访问速速。然⽽,在像 UDW 数据仓库这样的分布式数据库系统中,索引的使⽤需要更加谨慎。 索引会增加数据库系统的运⾏开销,它们占⽤存储空间并且在数据更新时,需要额外的维护⼯作。请确保查询集合在使⽤您创建的索引后,性能得到了改善(和全表顺序扫描相⽐)。可以使⽤0 码力 | 206 页 | 5.35 MB | 1 年前3Greenplum开源MPP数据库介绍
havan/ Confidential │ ©2022 VMware, Inc. 11 Greenplum的一些概念 Ø MPP、分布式系统最重要的点是什么? Ø 一个整体的分布式系统,和中间件的区别在哪? Ø Motion q 跨节点的数据交换 q Gather汇集 (n:1), Broadcast广播 (n:n), Redistribute重分布 (n:n) Ø Slice q0 码力 | 23 页 | 4.55 MB | 1 年前3
共 10 条
- 1