• pdf 文档 Pivotal HVR meetup 20190816

    0 码力 | 31 页 | 2.19 MB | 1 年前
    3
    文档介绍了HVR(High Volume Replication)技术及其在数据集成和实时分析中的应用。HVR通过日志基于CDC(更改数据捕获)实现高效的实时数据复制,支持异构平台间的数据校验与修复,并提供内置监控、报警及与第三方监控平台的集成。其优势包括提升业务洞察力、确保业务连续性、高效操作和降低风险。HVR支持多种数据存储和云平台,包括Data Lake、Data Warehouse、Cloud等,并能够同时满足流数据和批量数据处理需求。
  • pdf 文档 并行不悖- OLAP 在互联网公司的实践与思考

    0 码力 | 43 页 | 9.66 MB | 1 年前
    3
    文档讨论了Greenplum在互联网公司中的应用与扩展规划。Greenplum作为一个并行数据库,支持多种扩展方式,包括直接添加服务器、建立新集群以及建议的双跑扩展方式。文档还涉及了数据仓库的体系架构,包括OLAP场景、数据集市的构建与优化,提到了OLAP与OLTP的区别,以及如何通过数据集市满足不同业务需求。
  • pdf 文档 Greenplum分布式事务和两阶段提交协议

    0 码力 | 42 页 | 2.12 MB | 1 年前
    3
    本文档主要介绍了Greenplum分布式事务和两阶段提交协议的实现及其优化。分布式事务是指分布式环境下的事务,由多个节点的子事务组成,要求所有参与节点的事务要么全部提交,要么全部rollback。两阶段提交协议由准备阶段和提交阶段组成,用于保证分布式事务的原子性,广泛应用于商业分布式数据库。Greenplum在PostgreSQL的基础上实现了分布式事务管理,包括分布式快照、分布式事务提交日志、死锁检测等。文档还详细阐述了Greenplum两阶段提交协议的实现细节,如一阶段提交的适用场景和优化策略。
  • pdf 文档 深度揭秘Greenplum开源数据库透明加密

    0 码力 | 48 页 | 10.19 MB | 1 年前
    3
    本文深入探讨了Greenplum开源数据库的透明加密机制。Greenplum是一款开源的HTAP数据库,支持MPP架构、完整的事务、ACID、标准SQL以及大规模部署。文档详细介绍了GPDB的透明加密方案设计,包括加密和解密流程,数据在查询 planners、执行器及优化过程中的加密状态变化。透明加密确保数据在存储和传输过程中的安全性,同时支持多种访问控制和业务审计功能,为用户、DBA和系统管理员提供了全面的数据保护方案。
  • pdf 文档 Greenplum 排序算法

    0 码力 | 52 页 | 2.05 MB | 1 年前
    3
    文档介绍了Greenplum中的排序算法及其应用,包括内排序算法和外排序算法,以及Greenplum特有的TupleSort。文档详细说明了排序在分组聚集、归并连接和多键排序中的应用,重点提到多键排序对具有相同前缀字符串的高效排序优势。
  • pdf 文档 Pivotal Greenplum 5: 新一代数据平台

    0 码力 | 9 页 | 690.33 KB | 1 年前
    3
    Pivotal Greenplum 5 是一个新一代的开源、高级分析数据平台,支持多种云环境部署,具有高性能和灵活性。其核心功能包括 GPORCA 查询优化器、增强的 Workload Manager、基于 PostgreSQL 内核的架构以及支持多种数据类型和分析扩展。Greenplum 5 提供了一个统一的环境,能够处理结构化、半结构化和非结构化数据,支持大规模并行处理 (MPP) 和高效的 SQL 查询优化。新增功能如动态分区消除、改进的公共表表达式 (CTE) 处理以及对多种编程语言和算法库的支持,使其能够满足复杂的企业数据仓库和高级分析需求。
  • pdf 文档 基于 Greenplum 打造SaaS化电商服务平台

    0 码力 | 7 页 | 547.94 KB | 1 年前
    3
    聚水潭公司成立于2014年,专注于电商SaaS ERP解决方案,现已发展成为以SaaS ERP为核心的协同平台,服务超过20万家电商企业。公司采用基于Greenplum的数据架构,包括多个GP集群和分库分表技术,以处理海量数据和复杂查询。聚水潭在大促期间表现突出,如2018年双十一期间处理订单1.51亿单,成交额341亿。其系统架构涵盖业务库、数据仓库、交换库、数据集市等模块,支持高效的数据处理和分析。
  • pdf 文档 Greenplum 6新特性: 在线扩容工具GPexpand剖析

    0 码力 | 37 页 | 1.12 MB | 1 年前
    3
    文档详细介绍了Greenplum 6版本中GPExpand工具的新特性及改进。GPExpand支持在线不停机扩容,通过优化数据重分布和并行操作提升效率。其实现包括增加新节点只需修改gp_segment_configuration、引入跳表哈希算法、优化表更新的并行处理等。扩容过程中,新节点初始无数据,查询计划会受到影响,部分操作可能被阻塞。GPExpand还提供了清理功能,并支持通过GUC参数控制算法选择。这些改进提高了Greenplum集群的扩展性和性能。
  • pdf 文档 Greenplum 精粹文集

    0 码力 | 64 页 | 2.73 MB | 1 年前
    3
    文档深入探讨了Greenplum的发展历程、核心架构及其在大数据处理中的应用。Greenplum作为一种分布式并行数据库,通过MPP架构和并行计算技术,解决了海量数据处理的性能瓶颈。文档强调了数据模型设计的重要性,包括分布键选择、存储方式优化和分区策略等。硬件选型部分指出,Greenplum需要平衡性能、容量和成本,尤其是在网络交换机的规划和服务器配置上。通过与Hadoop的整合,Greenplum结合了并行处理与分布式存储的优势,展现了其高吞吐、高扩展性的特点。
  • pdf 文档 Brin Index主Greenplum 7中的理论与实现

    0 码力 | 32 页 | 1.04 MB | 1 年前
    3
    Brin Index是一种基于块范围的索引技术,适用于大型表且具有特定数据分布特性的场景。在Greenplum7中,Brin Index针对AppendOnly表进行了优化实现。其存储结构包括Revmap数组,用于记录块的最大和最小元组值,帮助过滤不符合条件的数据块。性能测试表明,Brin Index在一定区间选择性查询中表现出较高效率,特别是在数据块数量较大且选择性较低时尤为明显。实现中,Block Number通过计算上级数组索引位置,Revmap通过模运算确定偏移量。Brin Index的优势在于块级过滤能力和较低的存储开销,适合不愿大量存储索引空间的应用场景。
共 31 条
  • 1
  • 2
  • 3
  • 4
前往