Greenplum 精粹文集
数 据库实例同时开展并行计算。而且,这些 Postgresql 之间采用 share- nothing 无共享架构,从而更将这种并行计算能力发挥到极致,除此之 外,MPP 采用两阶段提交和全局事务管理机制来保证集群上分布式事 务的一致性,Greenplum 像 Postgresql 一样满足关系型数据库的包括 ACID 在内的所有特征。 从上图可以看到,Greenplum 的最小并行单元不是节点层级,而是在 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引 ·Hadoop 外部表 ·Gptext 全文检索 ·并行查询计划优化器和 Orca 优化器 ·Primary/Mirror 镜像保护机制 ·资源队列管理 ·WEB/Brower 监控 Big Date2.indd 7 16-11-22 下午3:38 8 3. Greenplum 的艺术 -- Parallel Everything 按照我们在用户现场观察到的,Master 上的资源消耗很少有超过 20% 情况发生,因为 Segment 才是计算和加载发生的场所(当然, 在 HA 方面,Greenplum 提供 Standby Master 机制进行保证)。 再进一步看,Master-Slave 架构在业界的大数据分布式计算和云计 算体系中被广泛应用,大家可以看到,现在主流分布式系统都是采 用 Master-Slave 架 构, 包 括:Hadoop0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
Instance 文件有损毁, 将需要全量恢复或者需要选择全量恢复。在 6 之前的版本,GP 的 Primary 和 Mirror 之间采用的是 filerep 的方式进行 block 级别的变化同步的机制,从 6 版本开始, 使用 WAL 复制,这将可以从根本上解决以往的 block 损毁被复制到 Mirror 上的问题, 也不再需要 persistent 系统表了(这个的确是一个让人很头疼的设计)。 生变化,就会自动同步到 Standby 从而保证与 Master 的一致性,所以,Standby 与 Master 可以保持实时同步。在 6 之前的版本,Master 与 Standby 的同步机制就 一直是 WAL 同步,而在 6 版本开始,Primary 和 Mirror 也采用了 WAL 同步,但由 于 Mirror 需要同步的 WAL 日志的量很大,所以,对性能的影响比 Standby 如何创建视图才最合理。 视图的依赖关系 -- 查看视图信息,查看视图依赖哪些对象,在GP中视图有强依 赖关系,这些依赖信息存储在系统表中。 视图是如何被存储的 -- 描述视图依赖的机制。 创建视图 使用CREATE VIEW命令将查询语句定义为一个视图。例如: =# CREATE VIEW comedies AS SELECT * FROM films0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum数据库架构分析及5.x新功能分享
Confidential–Inter nal Use Only 平台概况 产品特性 客户端访问和工具 多级容错机制 无共享大规模并行处理 先进的查询优化器 多态存储系统 客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 MPP Scatter/Gather 流处理 在线系统扩展 任务管理 服务 加载 & 数据联邦 高速数据加载0 码力 | 44 页 | 8.35 MB | 1 年前3Greenplum资源管理器
portal – SQL结束不一定释放slot – 一个事务用光所有slot 2017 年象行中国(杭州 站)第一期 Resource Queue • System PANIC – 需要睡眠/唤醒机制 – Count + LWLock + Lock • Count:记录并发数 • LWLock:保护count • Lock:睡眠/唤醒,死锁检测,状态报告 – 维护Lock在共享内存的状态 –0 码力 | 21 页 | 756.29 KB | 1 年前3Greenplum on Kubernetes 容器化MPP数据库
存储计算分离 ○ PV持久化存储资源 ○ StatefulSet/Pod弹性扩展计算资源 ● 数据库服务层 ○ Service统一Master & Standby Master地址 ● 服务发现机制 ○ 所有节点地址名不变 ● 跨云能力 ○ 容器应用对基础设施透明 Greenplum Operator Kubernetes Operator ● 自定义资源类型 ○ Custom Resource0 码力 | 33 页 | 1.93 MB | 1 年前3Greenplum备份恢复浅析
segment的数据一致性 但是,各个segment的数据设置隔离级别的动作存在时间差, 而master仍然接受新的事务,从而导致各个segment上的数 据不一致。我们可以通过实现barrier机制来避免这种情况: 1. 使数据库只读 2. 等待所有的事务全部提交,开始备份 3. 给pg_class加锁,等待每个segment备份时设置隔离级别 为串行化,恢复数据库为可读可写 并⾏备份恢复优化(3/3)0 码力 | 17 页 | 1.29 MB | 1 年前3Greenplum机器学习⼯具集和案例
各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建0 码力 | 58 页 | 1.97 MB | 1 年前3Pivotal Greenplum 最佳实践分享
shold = 5000000(资料依据项目而定) Truncate操作不会丢失字段级统计信息,在适当条件下可仅针对系统字段执行Analyze 垃圾空间回收 • GPDB采用MVCC机制,UPDATE 或 DELETE并非物理删除,而只是对无效记 录做标记; • Update/delete操作后,数据库不会自动释放这些空间,这些垃圾空间的回收方 式: 1)Vacuum0 码力 | 41 页 | 1.42 MB | 1 年前3
共 8 条
- 1