Greenplum 精粹文集
·行存还是列存: 列存储有更高的压缩率,合适于聚合运算,但不合适于宽表。一个 数据库中不应只有一种存储方式,每张表应依据实际情况设计存储 方式。 ·临时表: 对于程序中所使用到的临时表和中间表,上述 3 点规则同样适用。 ·分区: Greenplum 的分区原理与其他数据库无异。表的子分区个数不宜过 多,子分区粒度不易过细,子分区之间无需均匀。 ·索引: 在 Greenplum 中,可以使用索引但不能滥用。与 Protegrity ESA。 安全管理员将与 Protegrity ESA 交互。他们将宣布数据策略,确定将 使用什么样的加密算法来保存数据。此外,他们将定义谁可以访问并 解密数据的用户策略并明确一些规则,确定用户是否可以看到所有数 据,或仅能看到经过隐蔽处理的部分数据。然后,这些策略将被下推 到所有在 Pivotal Greenplum 服务器上运行的 PEP 代理处。 Big Date2.indd Protegrity 所提供的功能时,查询操作就将立即检索数据,然后该功能将联系本 地的 PEP 代理。此功能可向 PEP 代理告知使用查询的用户,这样, 它就可以查看 ESA 提供的目录,了解适用于该用户的规则及其尝试访 问的数据。它将取部分数据检查用户是否具有访问权限,然后 PEP 代 理将对数据运行加密或解密并返回数值。 除了在数据库中执行此功能以外,Protegrity 还提供一些工具来加密 数据库外的数据。这应作为0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
ROLE,这个设置并不会传递到该组的其他 ROLE,也就是说, ROLE 的资源组属性不可继承。 注意:不能将创建的基于外部组件的资源组分配给一个 ROLE。 如果想要将一个资源组从一个 ROLE 移除,并按照缺省的规则分配一个缺省资源组, 可以修改 ROLE 并分配一个名为 NONE 的资源组。例如: =# ALTER ROLE mary RESOURCE GROUP NONE; 监控资源组状态 TRUNCATE命令。例如: =# DELETE FROM mytable; =# TRUNCATE mytable; DROP TABLE会删掉所有与该表相关的索引、规则、触发器、约束等。然而要一起 删除与该表相关的视图VIEW,必须使用CASCADE。CASCADE会删除所有依赖该TABLE 的VIEW。如果不使用CASCADE,当表上有依赖时,DROP操作将会报错失败。例如: 例如,数据仓库中仅需要保留过去两个月的数据。如果数据按月进行分区,将可以 很容易的删除掉两个月之前的数据(TRUNCATE分区或者删除分区),而最近的数 据存入最近月份的分区即可。 按照某个规则数据是否可以被均匀的分拆?应该选择尽量把数据均匀分拆的规则。 若每个分区储存的数据量相当或者与分区跨度成比例,那么查询性能的改善将与分 区的数量或者条件的范围相关。例如,把一张表分为10个分区,命中单个分区条 件的查询性能可能会0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum备份恢复浅析
53.gz 其中XXX表示用户定义的文件前缀,0代表是非master节点,2代表该文件产生的 segment对应dbid,20170206160253是前面所说的时间戳。在恢复时,会根据这 个命名规则,找到对应的文件。 2017 年象行中国(杭州 站)第一期 gpcrondump具体实现(1/2) 2017 年象行中国(杭州 站)第一期 gpcrondump具体实现(2/2) gpcr 数据恢复(2/2) 2017 年象行中国(杭州 站)第一期 虽然并行备份和恢复大大提高了备份和恢复的速度,但是仍 然存在很多问题: 1. 大量数据需要落盘 2. 使用dbid作为备份文件命名规则,在主备切换或者 primary和mirror后会出现问题 3. 可能会出现各个segment数据不一致的情况 …... 并⾏备份恢复存在的问题 2017 年象行中国(杭州 站)第一期 并⾏备份恢复优化(1/3) 并⾏备份恢复优化(1/3) OSS uploader uploader uploader 2017 年象行中国(杭州 站)第一期 并⾏备份恢复优化(2/3) 使用dbid作为备份文件命名规则,在主备切换或者primary 和mirror后会出现问题,例如: dbid=2 dbid=5 primary mirror test_gp_dump_0_2_20170206160253.gz0 码力 | 17 页 | 1.29 MB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
中,Workload Manager 的功能有所增强,提高了规则创建的可自定义程度,并改进了监控查询活动及其 所用资源的方式。它可在查询运行过程中监控并检测内存、CPU 和磁盘 I/O 偏差。随后,Workload Manager 会在查询使 用的某项资源超过已定义阈值时记录日志,并可根据规则定义在必要时终止超过规定资源限额的查询。规则可按一天中的 时间和一周中的日期编写,这样各种不同类型的工作负载(例如0 码力 | 9 页 | 690.33 KB | 1 年前3Greenplum 架构概览
T ⽔平拆分成多个表进⾏存储,这个过程通常称为分区。紧接着,单⼀ 的数据库实例出现瓶颈,因此需要使⽤多个节点创建多个数据库实例,再按照某种规则将数据尽可能均匀地分布到各个节点上 ,这个过程通常称之为分⽚ GP 同时⽀持数据的分⽚和分区,具体的分⽚和分区规则将会 在后⾯的总结中详述 同时,GP 在存储上⽀持多态存储,也就是对于同⼀份数据,既可以选择基于⾏的存储⽅式,也可以选择基于列的存储⽅式,并且⽀持诸如0 码力 | 1 页 | 734.79 KB | 1 年前3Greenplum开源MPP数据库介绍
(grouping sets, 多阶段聚集…) q 窗口函数, (Recursive) CTE q Procedure Languages(Python,R,Perl……) Ø 优化器非常非常重要 Ø 基于规则优化和基于代价优化 Confidential │ ©2022 VMware, Inc. 10 ORCA Ø 历时十年,独立开发 Ø Cascades 架构 Ø OLAP性能很棒 Ø https://db Confidential │ ©2022 VMware, Inc. 19 GPCC Greenplum Command Center Ø Web UI 监控和管理 Ø 实时性能监控 Ø 可视化计划 Ø 基于规则的任务管理 Ø 向客户推荐性能优化操作 Ø 报警和通知 Confidential │ ©2022 VMware, Inc. 20 Greenplum Streaming Server Ø ETL工具0 码力 | 23 页 | 4.55 MB | 1 年前3并行不悖- OLAP 在互联网公司的实践与思考
yyyymmdd 分区,建议都添加 datenum int8) Ø append表 Ø 列存储表 Ø 多种表类型结合 • 表的命名 Ø GP内所有名称都小写 Ø table_name命名要符合命名规则,做到见名知义 36 Greenplum开发规范 用户与权限规范 • 四层授权保保障 Ø 角色 role : 管理数据库内对象权限 Ø 用户 user : 用户认证权限 Ø pg_hba.conf iptables : 防火墙IP访问配置策略 • 账号类型划分 Ø 管理账号 Ø 开发账号 Ø 调度账号 Ø 业务账号 Ø 测试账号 • 账号名称限定 Ø 所有都用小写字母加下划线的方式 Ø 按照命名规则,做到见名知义 37 Greenplum开发规范 Greenplum使用规范 • 平时使用规范 Ø避免高频率的insert、update操作 Ø避免频繁执行高内存消耗的会话 Ø避免出现死锁0 码力 | 43 页 | 9.66 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
opclass ] [, ...] ) [ TABLESPACE tablespace ] [ WHERE predicate ] 命令: CREATE RULE 描述: 定义⼀个新的重写规则 语法: CREATE [ OR REPLACE ] RULE 名字 AS ON 事件 TO 表 [ WHERE 条件 ] DO [ ALSO | INSTEAD ] { NOTHING 117/206 描述: 删除⼀个索引 语法: DROP INDEX 名字 [, ...] [ CASCADE | RESTRICT ] 命令: DROP RULE 描述: 删除⼀个重写规则 语法: DROP RULE 名字 ON 关系 [ CASCADE | RESTRICT ] 命令: DROP SCHEMA 描述: 删除⼀个模式 语法: DROP SCHEMA0 码力 | 206 页 | 5.35 MB | 1 年前3Pivotal HVR meetup 20190816
6RNA 18 Compare Products ➢ 案例需求全部满足 ➢ 生产环境实验同步 ➢ 支持全量同步、增量实时同步,无延时 ➢ 支持多种数据同构、异构数据同步 ➢ 过滤器制作规则处理异常数据 ➢ 可以达到BI系统的实时要求 ➢ 网络带宽利用率低,且支持数据的安全传输 一些事前没有考虑到的问题: 1. 数据质量问题 0000-00-00 00:00:00 28:00:000 码力 | 31 页 | 2.19 MB | 1 年前3Greenplum数据库架构分析及5.x新功能分享
Pivotal Confidential–Inter nal Use Only 多级分区存储 • 哈希Distribution:数据均 匀的分布到各个数据节点 • 范围分区: 数据节点内部, 根据多种规则分区,降低扫 描量 数据集 Segment 1A Segment 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment0 码力 | 44 页 | 8.35 MB | 1 年前3
共 12 条
- 1
- 2