Greenplum Database 管理员指南 6.2.1
.................................................................................. - 21 - 解读 GP 分布策略 .................................................................................................. ..................................................................................... - 125 - 验证分区策略 .................................................................................................. ............................................................................... - 343 - 规划 Mirror 策略 ................................................................................................. -0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum on Kubernetes 容器化MPP数据库
容器资源分配 ○ CPU ○ 内存 ○ 磁盘 ● 容器间网络互联 ○ 本机网络 ○ 跨机网络 ● 容器化Greenplum部署策略 ○ Master部署策略 ○ Primary Segment部署策略 ○ Mirror Segment部署策略 ● 容器化Greenplum运维管理 ○ 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 容器资源分配 ○ CPU ○ 内存 ○ 磁盘 ● 容器间网络互联 ○ 本机网络 ○ 跨机网络 ● 容器化Greenplum部署策略 ○ Master部署策略 ○ Primary Segment部署策略 ○ Mirror Segment部署策略 ● 容器化Greenplum运维管理 ○ 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 容器资源分配 ○ CPU ○ 内存 ○ 磁盘 ● 容器间网络互联 ○ 本机网络 ○ 跨机网络 ● 容器化Greenplum部署策略 ○ Master部署策略 ○ Primary Segment部署策略 ○ Mirror Segment部署策略 ● 容器化Greenplum运维管理 ○ 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性0 码力 | 33 页 | 1.93 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
4、表格设计 、表格设计 udw 的表格创建类似于 postgresql,由于 udw 采⽤ mpp 数据,创建表格的时候可以选择不同的数据分布策略,不同的存储⽅式等等。创建表格的时候可以定义下⾯信息: 数据类型 表约束 数据分布策略 表存储模型 分区策略 外部表:udwfile、udwhdfs 下⾯分别根据上⾯的可选信息对表格设计进⾏分析。 4.1 数据类型 数据类型 开发指南 Greenplum数据仓库 4.2 表约束 表约束 udw 表格⽀持 postgresql 的表格约束,拥有 primary、unique 、check、not null、foreign 等约束,主键约束必须使⽤ hash 策略来分布表数据存储,不能在同⼀个表同时使⽤主键和唯 ⼀约束,并且指定了primary 和 unique 的列必须全部或者部分包含在分布键中。 创建表检查约束 CREATE TABLE products( Hash 分布策略,并且约束列必须和表的分布键对应的列⼀致(或者是超集) CREATE TABLE products( product_no integer UNIQUE, name text, price numeric ) DISTRIBUTED BY (product_no); 主键约束:主键约束是唯⼀约束和⾮空约束的组合。要使⽤主键约束,表必须使⽤ Hash 分布策略,并且约束列0 码力 | 206 页 | 5.35 MB | 1 年前3Greenplum 精粹文集
协议进行转换,之前遇到某 客户因为驱动和服务器硬件兼容问题,压力一大,服务器自就会自 动重启,最后又将网络设备改回万兆交换机。 ·网卡绑定采用 mode=4 (802.3ad),流量传输 hash 策略选用 xmit_hash_policy=layer3+4【((sourceport XOR dest port) XOR ((source IP XOR dest IP) AND 0xffff) modulo 合 考虑服务器配置、生产环境的运行负载压力、跑批用户和前段查询用 户并发需求等各个方面。大多数场景下,4 或 6 个为宜。 同样,作为整体架构设计的重要 组成部分,ETL 服务器、监控管 理,备份策略如何规划,如何高 效组网都得在前期考虑好。在我 们的成功案例中,同一个企业级 数据平台中 Greenplum 集群和 Hadoop 集群配合运作的案例越 来越多。在中国移动的大数据架 构规范中,云化 表加载的性能 : 首先,数据的流向: Segment Host 从 gpfdist 服务请求数据,不同的 Segment Host 之间 需要互相传输数据,加载过程中数据的重分布和 Mirror 策略都需要占 用 Segment Host 之间的网络资源。 这里需要假设一下硬件指标: 主流配置,每个节点机器的磁盘 IO 性能都可达到 1GB/S 以上 (10 块 磁盘,如果 RAID 卡很优秀,甚至可以达到0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum 分布式数据库内核揭秘
种分布 策略、多级分区以及多态存储。 分布式数据存储 Confidential │ ©2021 VMware, Inc. 9 Greenplum 6 提供了以下 3 种数据分布策略: l 哈希分布 (Hash Distribution) l 随机分布 (Randomly Distribution) l 复制分布 (Replicated Distribution) 数据分布策略 Confidential 哈希分布是分布式数据库最为常用的数据分布方式。根据用户自定义的分布键计算哈希值,然后将 哈希结果映射到某个 Segment 上。在 Greenplum 6 中,默认采用一致性哈希(Jump Consistent Hash)分布策略。 哈希分布 当增加一个新的节点时,需要对原有数据进行重新映射。一致性哈希则保证了在重新映射的过程追 中,tuple 要么保留在原有节点中,要么迁移至新的节点中,从而实现最小数据迁移。 Confidential 将会根据分布键以及分布策略将数据分布到不同的节点中去。那 么在查询时,就需要各个节点将数据处理完毕后发送至 Coordinator 节点并返回给客户端用户。 分布式查询优化器 l 对于普通查询,只需要将 Segment 上的数据汇总即可,如果有 filter, 则在 segment 上执行条件过滤 l 对于 JOIN,我们需要考虑两张表的分布键以及分 布策略。若分布键和分布策略不同,就需要对数据0 码力 | 31 页 | 3.95 MB | 1 年前3Greenplum分布式事务和两阶段提交协议
Pool里未提交事务所修改的脏页刷回到持久存储 No-steal: 不允许Buffer Pool里未提交事务所修改的脏页刷到持久存储中 缓冲区管理策略Buffer Management Policy 13 ■ Force策略的问题 对持久存储器进行频繁的随机写操作,性能下降。 ■ No-Steal策略的问题 不允许未提交事务的脏页换出,系统的并发量不高。 ▪ No-Force / Steal 有更好的性能,但是怎么保证事务的原子性和持久 事务提交,所修改的数据页没有刷回至持久存储,如果发生断电 或者系统崩溃。 ❏ Steal: Buffer Pool中未提交的事务所修改的脏页刷回到持久存储,如果发生 断电或者系统崩溃。 缓冲区管理策略 14 ■ No-Force → Redo Log 事务提交时,数据页不需要刷回持久存储,为了保证持久性,先把Redo Log写 入日志文件。Redo log记录修改数据对象的新值(After 存储,为了保证原子性, 先把Undo Log写入日志文件。Undo Log记录修改数据对象的旧值(Before Image, BFIM) Solution: Logging 15 缓冲区管理策略和事务恢复的关系 Force No-Force Steal Undo / No-Redo Undo + Redo (performance: fastest recovery:0 码力 | 42 页 | 2.12 MB | 1 年前3Greenplum机器学习⼯具集和案例
⽤用户案例例 1 Greenplum + MADlib 助⼒力力邮件营销 2017.thegiac.com 问题 ● 邮件⼴广告点击预测 模型不不够精准,需 要更更好的邮件营销 策略略 ● 现有数据分析流程 繁琐,速度慢,有 很多⼿手动步骤,易易 出错 客户 数据科学解决⽅方案 ● 某⼤大型跨国多元 化传媒和娱乐公 司 ● 简化Data 流程 ● 数据 集进⾏行行了了更更充分的分析 X 没有良好的⽤用户分类体系 ✓ 建⽴立了了两套模型对典型⽤用户进⾏行行 聚类分析,对⽤用户群体和⽤用户习惯 有了了更更深⼊入的了了解,制定相应的营 销策略略 X 不不能⾼高效监测可疑Session ✓ 建立了可疑Session实时评分体系 X 考虑转换到Teradata ✓ 决定增加Greenplum Cluster数量 案例例优化总结0 码力 | 58 页 | 1.97 MB | 1 年前3PostgreSQL和Greenplum 数据库故障排查
2)调整work_mem、max_connections参数; 2018年PostgreSQL中国技术大会 微信号:laohouzi999 3)使用更严格的内存提交策略overcommit_memory: 内核参数overcommit_memory ,指定内存分配策略 可选值:0、1、2。 0, 表示内核将检查是否有足够的可用内存供应用进程使用; 如果有足够的可用内存,内存申请允许;否则,内存申请 失败,并把错误返回给应用进程。0 码力 | 84 页 | 12.61 MB | 1 年前3Greenplum 编译安装和调试
的分布键(id)和关联键(student_id) 不同,所以需要数据 重分布。 数据重分布由 Motion 操作符节点处理,它分成2个部分,一部分负责发送数据,一部分负责接收 数据。发送数据者可以根据不同的策略将数据发送给接收方,现在支持的策略有1)重分布( redistribution);2)广播(broadcast)。 最后每个segment执行结束后,将结果发送给 Master。Master 对最终的数据整合(Gather0 码力 | 15 页 | 2.07 MB | 1 年前3并行不悖- OLAP 在互联网公司的实践与思考
• 四层授权保保障 Ø 角色 role : 管理数据库内对象权限 Ø 用户 user : 用户认证权限 Ø pg_hba.conf : 实例权限配置文件 Ø iptables : 防火墙IP访问配置策略 • 账号类型划分 Ø 管理账号 Ø 开发账号 Ø 调度账号 Ø 业务账号 Ø 测试账号 • 账号名称限定 Ø 所有都用小写字母加下划线的方式 Ø 按照命名规则,做到见名知义 37 Greenplum开发规范0 码力 | 43 页 | 9.66 MB | 1 年前3
共 15 条
- 1
- 2