Pivotal HVR meetup 20190816
0 码力 | 31 页 | 2.19 MB | 1 年前文档介绍了HVR(High Volume Replication)技术及其在数据集成和实时分析中的应用。HVR通过日志基于CDC(更改数据捕获)实现高效的实时数据复制,支持异构平台间的数据校验与修复,并提供内置监控、报警及与第三方监控平台的集成。其优势包括提升业务洞察力、确保业务连续性、高效操作和降低风险。HVR支持多种数据存储和云平台,包括Data Lake、Data Warehouse、Cloud等,并能够同时满足流数据和批量数据处理需求。并行不悖- OLAP 在互联网公司的实践与思考
0 码力 | 43 页 | 9.66 MB | 1 年前文档讨论了Greenplum在互联网公司中的应用与扩展规划。Greenplum作为一个并行数据库,支持多种扩展方式,包括直接添加服务器、建立新集群以及建议的双跑扩展方式。文档还涉及了数据仓库的体系架构,包括OLAP场景、数据集市的构建与优化,提到了OLAP与OLTP的区别,以及如何通过数据集市满足不同业务需求。Greenplum分布式事务和两阶段提交协议
0 码力 | 42 页 | 2.12 MB | 1 年前本文档主要介绍了Greenplum分布式事务和两阶段提交协议的实现及其优化。分布式事务是指分布式环境下的事务,由多个节点的子事务组成,要求所有参与节点的事务要么全部提交,要么全部rollback。两阶段提交协议由准备阶段和提交阶段组成,用于保证分布式事务的原子性,广泛应用于商业分布式数据库。Greenplum在PostgreSQL的基础上实现了分布式事务管理,包括分布式快照、分布式事务提交日志、死锁检测等。文档还详细阐述了Greenplum两阶段提交协议的实现细节,如一阶段提交的适用场景和优化策略。深度揭秘Greenplum开源数据库透明加密
0 码力 | 48 页 | 10.19 MB | 1 年前本文深入探讨了Greenplum开源数据库的透明加密机制。Greenplum是一款开源的HTAP数据库,支持MPP架构、完整的事务、ACID、标准SQL以及大规模部署。文档详细介绍了GPDB的透明加密方案设计,包括加密和解密流程,数据在查询 planners、执行器及优化过程中的加密状态变化。透明加密确保数据在存储和传输过程中的安全性,同时支持多种访问控制和业务审计功能,为用户、DBA和系统管理员提供了全面的数据保护方案。Greenplum 排序算法
0 码力 | 52 页 | 2.05 MB | 1 年前文档介绍了Greenplum中的排序算法及其应用,包括内排序算法和外排序算法,以及Greenplum特有的TupleSort。文档详细说明了排序在分组聚集、归并连接和多键排序中的应用,重点提到多键排序对具有相同前缀字符串的高效排序优势。Pivotal Greenplum 5: 新一代数据平台
0 码力 | 9 页 | 690.33 KB | 1 年前Pivotal Greenplum 5 是一个新一代的开源、高级分析数据平台,支持多种云环境部署,具有高性能和灵活性。其核心功能包括 GPORCA 查询优化器、增强的 Workload Manager、基于 PostgreSQL 内核的架构以及支持多种数据类型和分析扩展。Greenplum 5 提供了一个统一的环境,能够处理结构化、半结构化和非结构化数据,支持大规模并行处理 (MPP) 和高效的 SQL 查询优化。新增功能如动态分区消除、改进的公共表表达式 (CTE) 处理以及对多种编程语言和算法库的支持,使其能够满足复杂的企业数据仓库和高级分析需求。基于 Greenplum 打造SaaS化电商服务平台
0 码力 | 7 页 | 547.94 KB | 1 年前聚水潭公司成立于2014年,专注于电商SaaS ERP解决方案,现已发展成为以SaaS ERP为核心的协同平台,服务超过20万家电商企业。公司采用基于Greenplum的数据架构,包括多个GP集群和分库分表技术,以处理海量数据和复杂查询。聚水潭在大促期间表现突出,如2018年双十一期间处理订单1.51亿单,成交额341亿。其系统架构涵盖业务库、数据仓库、交换库、数据集市等模块,支持高效的数据处理和分析。Greenplum 6新特性: 在线扩容工具GPexpand剖析
0 码力 | 37 页 | 1.12 MB | 1 年前文档详细介绍了Greenplum 6版本中GPExpand工具的新特性及改进。GPExpand支持在线不停机扩容,通过优化数据重分布和并行操作提升效率。其实现包括增加新节点只需修改gp_segment_configuration、引入跳表哈希算法、优化表更新的并行处理等。扩容过程中,新节点初始无数据,查询计划会受到影响,部分操作可能被阻塞。GPExpand还提供了清理功能,并支持通过GUC参数控制算法选择。这些改进提高了Greenplum集群的扩展性和性能。Greenplum 精粹文集
0 码力 | 64 页 | 2.73 MB | 1 年前文档深入探讨了Greenplum的发展历程、核心架构及其在大数据处理中的应用。Greenplum作为一种分布式并行数据库,通过MPP架构和并行计算技术,解决了海量数据处理的性能瓶颈。文档强调了数据模型设计的重要性,包括分布键选择、存储方式优化和分区策略等。硬件选型部分指出,Greenplum需要平衡性能、容量和成本,尤其是在网络交换机的规划和服务器配置上。通过与Hadoop的整合,Greenplum结合了并行处理与分布式存储的优势,展现了其高吞吐、高扩展性的特点。Brin Index主Greenplum 7中的理论与实现
0 码力 | 32 页 | 1.04 MB | 1 年前Brin Index是一种基于块范围的索引技术,适用于大型表且具有特定数据分布特性的场景。在Greenplum7中,Brin Index针对AppendOnly表进行了优化实现。其存储结构包括Revmap数组,用于记录块的最大和最小元组值,帮助过滤不符合条件的数据块。性能测试表明,Brin Index在一定区间选择性查询中表现出较高效率,特别是在数据块数量较大且选择性较低时尤为明显。实现中,Block Number通过计算上级数组索引位置,Revmap通过模运算确定偏移量。Brin Index的优势在于块级过滤能力和较低的存储开销,适合不愿大量存储索引空间的应用场景。
共 31 条
- 1
- 2
- 3
- 4
关键词
数据复制 实时报表 日志 基于 CDC 数据集成 数据湖 Greenplum OLAP 数据仓库 数据集市 扩展规划 分布式事务 两阶段提交协议 Write Ahead Log(WAL) 事务管理器 Greenplum数据库 透明加密 数据库安全 加密方案 数据加密 Group Aggregation Merge Join Distinct Aggregation Sorted Motion TupleSort Greenplum 5 GPORCA Workload Manager PostgreSQL 分析扩展 Greenplum (GP) SaaS化电商服务平台 聚水潭 数据架构 分库分表 GPExpand Greenplum 6 数据重分布 并行优化 跳表哈希算法 并行计算 数据模型设计 硬件选型 gphdfs Brin Index AppendOnly Table Block Number Revmap 性能测试