Greenplum数据仓库UDW - UCloud中立云计算服务商
numeric 开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 83/206 ); 唯⼀约束:唯⼀约束确保存储在⼀张表中的⼀列或多列数据数据⼀定唯⼀。要使⽤唯⼀约束,表必须使⽤ Hash 分布策略,并且约束列必须和表的分布键对应的列⼀致(或者是超集) CREATE TABLE products( product_no integer UDW⽀持⾏式存储、列式存储。 ⾏存储的应⽤场景: 表数据在载⼊后经常 update; 表数据经常 insert; 查询中选择⼤部分的列; 列存储的应⽤场景: 列存储⼀般适⽤于宽表(即字段⾮常多的表)。在使⽤列存储时,同⼀个字段的数据连续保存在⼀个物理⽂件中,所以列存储的压缩率⽐普通压缩表的压缩率要⾼很多,另外在多数字段中筛 选其中⼏个字段中,需要扫描的数据量很⼩,扫描速度⽐较快。因此,列 ⾏存储和列存储 ⾏存储的应⽤场景: 1. 表数据在载⼊后经常update; 2. 表数据经常insert; 3. 查询中选择⼤部分的列; 列存储的应⽤场景: 列存储⼀般适⽤于宽表(即字段⾮常多的表)。在使⽤列存储时,同⼀个字段的数据连续保存在⼀个物理⽂件中,所以列存储的压缩率⽐普通压缩表的压缩率要⾼很多,另外在多数字段中筛 选其中⼏个字段中,需要扫描的数据量很⼩,扫描速度⽐较快。因此,列0 码力 | 206 页 | 5.35 MB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
................................................................................. 10 Greenplum 集群多站点复制 ............................................................................................... 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 Greenplum 与欧拉开源社区强强联手,不仅是双方业务用户所期盼的,同时也是 Greenplum 社区与对中国本地开源社 区的深入 Edge、面向嵌入式的版本 openEuler 21.09 Embedded。 openEuler 希望与广大生态伙伴、用户、开发者一起,通过联合创新、社区共建,不断增强场景化能力,最终实现统一 操作系统支持多设备,应用一次开发覆盖全场景。 openEuler 平台架构 openEuler 是覆盖全场景的创新平台,在引领内核创新,夯实云化基座的基础上,面向计算架构互联总线、存储介质 发展新0 码力 | 17 页 | 2.04 MB | 1 年前3并行不悖- OLAP 在互联网公司的实践与思考
Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 19 Greenplum现状说明 三大Greenplum集群关系 • 数据来源不同 • 数据处理不同 • 时效速度不同 • 体系架构相同 • 年表划分相同 • 平台整体定位 • 定位不同,多集群配合形成逻辑大集群 20 Greenplum现状说明 Greenplum多层业务规划图 21 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 -公司IDC_02 机房 26 Greenplum运维体系 系统状态监控 - gpcc -公司IDC_03机房 27 Greenplum运维体系 数据库备份 • 配置与结构备份 Ø 多机房级联备份 Ø Greenplum在本机进行第一次备份 Ø 备份通过rsync传输到同机房ETL服务器 Ø 各机房ETL服务器在备份到备份服务器 • 结果数据备份 Ø Greenplum集群与postgresql集市备份0 码力 | 43 页 | 9.66 MB | 1 年前3Greenplum 精粹文集
Greenplum(当时还是一个 Startup 公司,创始人家门口有 一棵青梅 ——greenplum,因此而得名)召集了十几位业界大咖(据 说来自 google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 l等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个实例且实现并行计算呢?为了这,Interconnnect 大神器出现了。在 那一年多的时间里,大咖们很大一部分精力都在不断的设计、优化、 开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多 个 Postgresql 实例的高效协同和并行计算,Interconnect 承载了并行 的 是:Greenplum 绝 不 仅 仅 只 是 简 单 的 等 同 于 “Postgresql+interconnect 并行调度 + 分布式事务两阶段提交”, Greenplum 还研发了非常多的高级数据分析管理功能和企业级管理模 块,如下这些功能都是 Postgresql 没有提供的: ·外部表并行数据加载 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
Master,就目前已有用户的使用情况来看,即便是编者有幸参与建设的 192 台计算节点的集群,Master 的资源依然很空闲,并不会成为性能的瓶颈,同时,因为 是单 Master,可以最大限度的规避多 Master 架构的系统表频繁不一致的缺陷。 GP 是基于 PostgreSQL 发展而来,用户端可以如同访问 PostgreSQL 那样与 GP 进行交互。可以通过 PostgreSQL 客户端程序(如 的情况下,通过不同网段间的 Primary 与 Mirror 之间的对应关系也可以达到网络保障的效果,但依然强烈建议采用网卡绑 定的方式实现网络的高可用。建议采用支持 802.3ad 协议的交换机以实现多网口的链 路聚合,这样,在操作系统层面,多个物理网口将聚合并表现为一个 IP 地址,当任何 的网络或者交换机出现故障时,在操作系统级别将不会有任何的连接性异常的感知,只 是网络带宽出现下降,整个数据库集群的 ROLE 往往被用来做权限 管理(GROUP)。缺省为 NOLOGIN。 CONNECTION LIMIT connlimit 对于可以 LOGIN 的 Role 来说,决定其同时最多可以有多 少个连接。缺省值为-1(无限制)。 PASSWORD 'password' 设置 Role 的 PASSWORD。如果暂时不打算让该 Role 登陆 数据库,可忽略该属性,如果不指定密码,PASSWORD0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum 分布式数据库内核揭秘
Text、CSV、Avro、Parquet 等。 多态存储 Confidential │ ©2021 VMware, Inc. 14 多态存储 如上所示,可以根据数据访问频率以及数据量这两个维度来选择不同的存储方式,并且在逻辑上仍 然是同一张表。 15 Confidential │ ©2021 VMware, Inc. Greenplum 分布式查询优化器 Motion Confidential0 码力 | 31 页 | 3.95 MB | 1 年前3Greenplum 排序算法
39 ● 多键排序是Greenplum特有的一种排序方式,它的优势主要是对具有相同前缀 的字符串进行高效排序。 ● 在现实世界里,拥有相同前缀的字符串是非常常见的,比如URL都以https://为 前缀,每个具体站点也拥有自己的前缀,比如Greenplum站点的每篇文章都以 https://cn.greenplum.org/为前缀。对这些字符串进行排序的时候,多键排序优 势明显。 多键排序 40 40 ● 多键排序算法:快速排序的扩展 ● 假设待排序数组为a,数组元素是长度为K的字符串, 多键排序 41 多键排序 42 ● Group Aggregation ● Merge Join ● Distinct Aggregation ● Sorted Motion 排序在Greenplum中的应用 43 ● Greenplum的聚集节点使用两种聚集方式:哈希聚集和分组聚集。 1 2 4 2 4 3 4 6 1 1 2 48 ● 内排序 • 快速排序 • 堆排序 ● 外排序 • 生成尽可能大的顺串 • 高效比较多个顺串的最小值 • 减少IO次数 ● 多键排序 总结 准备工作 从源代码开始:下载编译Greenplum源代码 全新的问答论坛 https://cn.greenplum.org/askgp0 码力 | 52 页 | 2.05 MB | 1 年前3Greenplum开源MPP数据库介绍
的开源 MPP数据仓库 Ø 2019年底跟随Pivotal被VMware收购 Confidential │ ©2022 VMware, Inc. 5 谁在用Greenplum? Ø 500多付费企业客户 Ø 成千上万的开源用户 Ø 支撑巨大的生产集群: q 250+ servers q 10+ PetaBytes Ø 十几个甚至几十个国内国外的衍生项 目(我们是真开源,欢迎大家贡献) HDFS,S3,文件, 网络,命令,流式数据… Confidential │ ©2022 VMware, Inc. 16 Greenplum生态:Madlib Ø 在数据库内做机器学习 Ø 非常多的算法库 Confidential │ ©2022 VMware, Inc. 17 GPText Ø MPP化的Apache Solr,用于全文检索和文本分析 Ø 举例: q 十个单词内包含Alan和Clinton:“Alan Confidential │ ©2022 VMware, Inc. 21 Greenplum 7的亮点:PostgreSQL v12 和新特性 Ø 6000+ 冲突 Ø 从9.4升级到12 Ø 80多万行改动 Ø Upsert, BRIN, JIT, … Confidential │ ©2022 VMware, Inc. 22 Greenplum 7的亮点:Greenplum to Greenplum0 码力 | 23 页 | 4.55 MB | 1 年前3Pivotal HVR meetup 20190816
和运营效率得以提升,这有助于二手车经销商专注于车辆整备和二手 车零售,加速行业专业化分工、实现规模化发展。 同时,天天拍车也正在布局二手车金融、二手车保卖等创新业务。截 至目前,天天拍车已在全国超过50个多城市设立线下交易服务中心。 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 14 Compare Products 需求:利用GP自建数据仓库面临的数据集成问题 JDBC驱动强依赖。 ➢ 版本更新不及时,对GreenPlum新版本无法持续性支持,不稳定。 ➢ 需开发人员支持,二次开发或脚本支持,开发时间成本和人力成本高。 ➢ 支持数据库版本少,无法支持跨多版本的Oracle、MySQL、PostgresSQL、SQL Server等 ➢ 断点续传不支持 ➢ 大量数据同步的情况下,同步组件效率低 参考:https://mp.weixin.qq.co0 码力 | 31 页 | 2.19 MB | 1 年前3Pivotal Greenplum 最佳实践分享
步,全量同步是在两个节点之间全量拷贝文件,超过10 0000个对象,在数据目录下地文件数会可能达到上百万 个档,这些文件的拷贝需要花费很长时间 – 使用gpexpand扩容节点时,对象数多,对应到每个实例下的文件数非常多,将这些目的档重分布到新扩展的节 点时间会很长 – 系统表(pg_class,pg_attribute)太大,影响系统工作效率 – 系统元数据检查pg_checkcat等工具运行时间比较长0 码力 | 41 页 | 1.42 MB | 1 年前3
共 16 条
- 1
- 2