Greenplum Database 管理员指南 6.2.1
................................................................................... - 28 - 模拟 Row 级别的权限控制 ....................................................................................... - 29 - ..................................................................................... - 171 - 事务隔离级别 .................................................................................................. 者因失败的 Instance 文件有损毁, 将需要全量恢复或者需要选择全量恢复。在 6 之前的版本,GP 的 Primary 和 Mirror 之间采用的是 filerep 的方式进行 block 级别的变化同步的机制,从 6 版本开始, 使用 WAL 复制,这将可以从根本上解决以往的 block 损毁被复制到 Mirror 上的问题, 也不再需要 persistent 系统表了(这个的确是一个让人很头疼的设计)。0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
压缩表必须是追加表。UDW ⽀持两种级别的压缩:表级别和字段级别。⾏式表和列式表对压缩的⽀持也不⼀样。 ⾏式表⽀持表级别的压缩,⽀持的压缩算法有 ZLIB。 列式表⽀持表级别和字段级别的压缩,⽀持的压缩算法有 RLE_TYPE,ZLIB。 RLE_TYPE 的压缩级别 compresslevel 取值从1到4,级别越⾼压缩⽐越⾼。RLE_TYPE适合于有⼤量重复的数据记录。 ZLIB 的压缩级别 compresslevel 那么则在维度-1元素之间添加换⾏符。 如下所 ⽰: row_to_json(record [,pretty_bool]) 以 JSON 对象格式返回⾏。如果pretty_bool为 true, 将在级别-1元素之间添加换⾏符。 UDW中Json类型 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 143/206 UDW中Json类型 Greenplum数据仓库0 码力 | 206 页 | 5.35 MB | 1 年前3Greenplum 精粹文集
性能 是 40GB/s,这样超大的 IO 吞吐是传统的 Storage 难以达到的。 (MPP Share-nothing 架构实现超大 IO 吞吐能力 ) 另外,Greenplum 还是建立在实例级别上的并行计算,可在一次 SQL 请求中利用到每个节点上的多个 CPU CORE 的计算能力,对 X86 的 CPU 超线程有很好的支持,提供更好的请求响应速度。在 PoC 中接触 到其它一些国内外基于开放平台的 scalability),Greenplum 可以采用各种开发语言来扩展用户自定 义函数(UDF)(我个人是 Python 和 C 的 fans,后续章节与大家分享)。 这些自定义函数部署到 Greenplum 后可用充分享受到实例级别的并行 性能优势,我们强烈建议用户将库外的处理逻辑,部署到用 MPP 数 据库的 UDF 这种 In-Database 的方式来处理,你将获得意想不到的性 能和方便性;例如我们在某客户实现的数据转码、数据脱敏等,只需 种代价,在符合逻辑关系的组合中,选择代价 最低的路径。如果我们发现执行计划不如我们期望的那样,我们可以 进行的干预是: 对相关的表收集统计信息,或者修改 session 级别的 gp_segments_ for_planner 参数的值,不要试图在更高级别修改该参数,那样是极其 危险的。 再者,执行计划为什么会选择不够高效的方法,由于执行计划是基于 统计信息生成的,而统计信息不可能涵盖所有细节。通常,以下几中0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum备份恢复浅析
每个segment备份时设置隔离级别为串行化,保证每个 segment的数据一致性 但是,各个segment的数据设置隔离级别的动作存在时间差, 而master仍然接受新的事务,从而导致各个segment上的数 据不一致。我们可以通过实现barrier机制来避免这种情况: 1. 使数据库只读 2. 等待所有的事务全部提交,开始备份 3. 给pg_class加锁,等待每个segment备份时设置隔离级别 为串行化,恢复数据库为可读可写0 码力 | 17 页 | 1.29 MB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
deadlockdetector) 这项技术对性能提升特别是 Update 和 Delete 至关重要。锁是数据库中实现并发控制的重要技术,随之而来的死锁 处理。Greenplum 创新性的采用了分布式死锁检测,更新删除表的锁级别已降低,支持并发更新删除操作,大大提 升了处理性能。 并发控制优化 Greenplum 6 除了全局死锁检测,还引入了多项其他并发控制优化方法,这些优化对 SELECT 和 INSERT 版本本次测试,共计执行回归用例 930 个,其中核心数据库引擎用例 534 个,隔离级别用例 240 个,失败 1 个(疑似虚机资源问题)。其它功能测试若干,手动验证用例 2 个(SSL 工具版本问题),管理工具脚 本用例 455 个。整体质量良好。 测试活动 tempest 集成测试 核心引擎 全部 534 用例通过 隔离级别 240 用例失败 1 个 其它 手动验证用例 2 个 管理工具脚本0 码力 | 17 页 | 2.04 MB | 1 年前3Greenplum机器学习⼯具集和案例
客户数据 - 购买 - 预定 - 营销 - 在线注册 - ⽹网⻚页浏览历史 - 地理理信息数据 - 业务部⻔门信息 - ⽹网站⽤用户信息 • TB 级别数据 • 1000+ 特征 平台 建模⼯工具 PL/pgSQL 数据和技术预览 2017.thegiac.com 数据整理理 数据准备 信息价值和证据权 重 成对相关性 Dirichlet Allocation (LDA) 2017.thegiac.com 基于LDA特征的聚类 会话 主题分布 K-means 会话聚类 • 把每个会话看成一篇文章 • 百万级别文档 • 词汇量 8000+ 2017.thegiac.com 某个特定⽤用户在⼀一个⽉月内都关注什什么? 2017.thegiac.com 会话识别 API 请求 ⽇日志0 码力 | 58 页 | 1.97 MB | 1 年前3Greenplum 6新特性: 在线扩容工具GPexpand剖析
表执行操作时也会按照numsegment值分配Gang ▪ 增加新节点后,对每个表做EXPAND后该值会随着改成新集群的大小 改进与实现 改进与实现 • EXPAND每个表 – 对表加最高级别锁(其他读写均被阻塞) – 移动数据到新节点 – 修改numsegments – 释放锁 改进与实现 • numsegments的收益 – 不需要将表改成随机分布,单表查询可以做优化 – 对于0 码力 | 37 页 | 1.12 MB | 1 年前3
共 7 条
- 1