Greenplum Database 管理员指南 6.2.1
©2020 Esena Chen(陈淼 miaochen@mail.ustc.edu.cn) 编者工作十几年,先后供职于民企,国企,外企,截止目前,已从事 Greenplum 技术工作 10 余年,10 余年来,专注在 Greenplum 和相关技术领域,主要工作职责是 售后支持,帮助我们的 Greenplum 用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提 .................................................................................... - 68 - 资源队列如何工作 .................................................................................................. .................... - 281 - 创建数据库工作目录 ...................................................................................................... - 281 - 创建 Master 的工作目录 ................................0 码力 | 416 页 | 6.08 MB | 1 年前3深度揭秘Greenplum开源数据库透明加密
In DATABASE 工作流程 GPDB透明加密解析 KMS Master key Disk Memory Major key (Encrypted) Disk Memory/Client Object key (Encrypted) Data (Encrypted) Object key (Encrypted) Data (Encrypted) 工作流程 GPDB透明加密解析 key (Decrypted) Cached Data (Encrypted) Object key (Encrypted) Data (Encrypted) 系统域认证+二进制文件证书认证 工作流程 GPDB透明加密解析 KMS Master key Disk Memory Major key (Encrypted) Disk Memory/Client Object key Cached Object key (Decrypted) Cached Data (Encrypted) Object key (Encrypted) Data (Encrypted) 工作流程 GPDB透明加密解析 KMS Master key Disk Memory Major key (Encrypted) Disk Memory/Client Object key0 码力 | 48 页 | 10.19 MB | 1 年前3Greenplum介绍
t返回的 数据,最后返回给用户。 Greenplum架构: Segment介绍 Segment是数据的实际存储的地方,也是一个经过改造 过的PostgreSQL数据库。它做实际的数据处理工作。 Greenplum建议在Segment host上建多个Segment数 据库,数量等于实际的CPU的core数。 Greenplum架构: 内部网络 Segment host与mast ead- only"模式,也就是说如果一个segment坏了,整个 greenplum会变成只读,不能写了。如果模式是 “continue”模式时,一个segment坏了的时候,数据 库仍然可以继续工作。但由于segment的primary与 mirror端的数据不同步了,所以恢复的时候需要花比较 长的时间。对于Greenplum 3.X的版本,恢复时,需要 把好的节点上的所有数据都copy到坏的机器上。而 (gender); 并行数据装载 Greenplum Database’s parallel file server(gpfdist),可 以达到1小时装载2T数据。 GP的工作负载的资源控制 GP提供了对工作负载和资源控制的功能。 在GP可以建一个资源队列(resource queue),然后把 用户加入到这个队列中,然后就可以控制: 1. 所有活动的SQL的cost值最多是多少?0 码力 | 38 页 | 655.38 KB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
有云和私有云)中,也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查 询。与旧式 MPP 数据库中常用的传统 RDBMS 查询优化器相比,GPORCA 大幅度地提高了查询性能。 Pivotal Greenplum 5:新一代数据平台 作为重要的新版本,Pivotal Greenplum 中做高级分析,无论是提供将应用逻辑向下推送至数据所在位置的方法,执行 分析功能,还是以大规模并行方式构建数据模型,都可以实现。Greenplum 5 支持适用于数据挖掘和数据科学工作的最全面、 最先进的分析程序包和扩展。 Greenplum 5 还针对最受欢迎的 Python 和 R 语言算法库提供简单易用的安装程序。 • Greenplum 5 中支持的 Python 效的代码,因而非常实用。过去,系统默认使用传统查询 优化器,但自 Greenplum 5 起,GPORCA 将成为默认查询优化器。它能够通过并发的混合工作负载处理多种复杂查询, 并可提高查询性能。2 这样一来,大型团队就可以利用高级分析和多元化工作负载并行处理多个分析用例,针对大型数据卷实现较高的分析查询 性能。GPORCA 的强大之处在于 能够以并行方式针对提交的 SQL 语句计算大量可能的0 码力 | 9 页 | 690.33 KB | 1 年前3Pivotal Greenplum 最佳实践分享
每个Instance都是一套独立的进程,当客户端 发起一个请求时,每个Instance都将FORK子进 程并行工作; • 对于并发请求高、面向于复杂的灵活查询的系 统,建议每个Segment配置4个或以下Instance, 这样来保证每个Instance所需资源,保证系统 系统运行稳定性,例如,减少OOM发生的概率; • 对于以批处理、串行工作为主的系统,可以配 置到8个Instance,这样可以尽可能的发挥每个 CPU的处理性能。 Age的监控: xid_warn_limit:500000000(5亿),AGE大于5亿自动告警 xid_stop_limit: 1000000000, AGE大于10亿停止工作,等待vacuum执行 数据库对象数上限的最佳实践 GPDB内部的对象:所有的表(包括分区表)、索引、视图等都称为对象 GPDB最佳实践所推荐的对象管理要求是:一个数据库内对象不要超过10 – 使用gpexpand扩容节点时,对象数多,对应到每个实例下的文件数非常多,将这些目的档重分布到新扩展的节 点时间会很长 – 系统表(pg_class,pg_attribute)太大,影响系统工作效率 – 系统元数据检查pg_checkcat等工具运行时间比较长 物理模型经验分享 物理模型对于系统性能有很大影响,因此需要我们特别关注。 以下来自于在某大型银行的使用经验:0 码力 | 41 页 | 1.42 MB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
及未来发布的 Greenplum 7 丰富的 HTAP 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 一直以来,客户都能在 Greenplum 中做高级分析,无论是提供将应用逻辑向下推送至数据所在位置的方法,执行分 析功能,还是以大规模并行方式构建数据模型,都可以实现。Greenplum 支持适用于数据挖掘和数据科学工作的最 全面、最先进的分析程序包和扩展。Greenplum 还针对最受欢迎的 Python 和 R 语言算法库提供简单易用的安装程 序,包括 Tensorflow、NumPy、SciPy、XGBo 本着开源精神,本次合作和贡献完全遵守双方开源社区流程进行,以社区讨论和提交 PR 的方式成功运作。合作参与 方为 Greenplum 中文社区开发者和 openEuler DB SIG。下面对工作内容做简要的介绍: 1. Greenplum 社区上游(Github)发布包引入 此次参与欧拉操作系统构建和发布的包来自 Greenplum 社区发布包(6.17.0-src-full0 码力 | 17 页 | 2.04 MB | 1 年前3Greenplum机器学习⼯具集和案例
dispatch Segment Servers Query processing & data storage SQL Massively Parallel Processing ⼯工作原理理 2017.thegiac.com External Sources Load, streaming, etc. Network Interconnect ... Input validation & pre-processing SQL Massively Parallel Processing ⼯工作原理理 2017.thegiac.com C API (Greenplum, PostgreSQL, HAWQ) 底层抽象层 (数组操作、类型转换、数值计算库等) 数据库内建函 信息价值和证据权 重 成对相关性 删除⾼高度相关变量量 逻辑回归 计算 KS 分值 模型验证 ⼿手动预测 1 2 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理 特征⽣生成 验证 预测 信息价值 ⽅方差膨胀 因⼦子 成对相关性 逻辑回归 Elastic Net0 码力 | 58 页 | 1.97 MB | 1 年前3Greenplum 精粹文集
这个核心软件组件。最终实现了对同一个集群中多 个 Postgresql 实例的高效协同和并行计算,Interconnect 承载了并行 查询计划生产和 Dispatch 分发(QD)、协调节点上 QE 执行器的并 行工作、负责数据分布、Pipeline 计算、镜像复制、健康探测等等诸 多任务。 在 Greenplum 开源以前,据说一些厂商也有开发 MPP 数据库的打算, 其中最难的部分就是在 Interconnect 模式进行单个实例的访问)。正因为如此,甚 至一个运行在单节点上的 GreenplumDB 也是一个小型的并行计算架 构,一般一个节点配置 6~8 个实例,相当于在一个节点上有 6~8 个 Postgresql 数据库同时并行工作,优势在于可以充分利用到每个节点 的所有 CPU 和 IO 能力。 Greenplum 单个节点上运行能力比其它数据库也快很多,如果运行在 多节点上,其提供性能几乎是线性的增长,这样一个集群提供的性能 核的资源。 通常,一个 Primary Instance 在处理外部表的数据时,每秒处理大 约 10MB~15MB 的数据。如果采用深度压缩算法,处理能力还会 再打些折扣。 3) 根据外部表工作原因,PrimaryInstance 从 gpfdist 服务抓取数据 (D) 是随机的,与分布策略无关。假设数据分布平坦且顺序随机, 系统中总共有 N 个 Primary Instance,则,D0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum 新一代数据管理和数据分析解决方案
Commodity HW • 用户人数 • 安全度 • 查询、报告、分析的数量 • 数据的高度多样性 • 大量定制数据 • 监管要求 商务智能/数据仓库发展趋势 一切都在增长! 数据仓库工作量:数据膨胀 面临的新难题是如何处理大规模数据 过去的10年 现在 HPC 企业 SME 万亿字节 千兆字节 兆字节 千万亿字节 万亿字节 千兆字节 行业商务智能解决方案的实例 • 40节点的Sun数据仓库设备 • 优势 • 可以通过控制支持快速膨胀的数据集 “Greenplum将成为我们不可或缺的合作伙伴,因为我们需要不断更新数据操作方式,使用户和广告商 通过我们的工作网络中获得更好的印象。” - FIM受众网络技术和运营部门的产品执行副总裁 Arnie Gullov-Singh 24 净数据规模 (TB) 2008年9月 2008年12月 客户实例:Reliance 20 kW, 8个机架 2000万美元 40 总结 • Greenplum正在将强大的并行计算能力融入到大 规模数据仓库和分析领域 • 世界级的行业团队进行高性能计算和数据库系统的 前沿开发工作 • 为全球很多最大规模的数据仓库提供提供推动力 • 最先将SQL和Map-Reduce的功能整合到统一的数 据处理框架中 • 可以帮助企业采集所有数据,并在竞争中获得出色 的洞察力 410 码力 | 45 页 | 2.07 MB | 1 年前3Greenplum 编译安装和调试
com/greenplum-db/gpdb,内核代码基于 PostgreSQL 9.4。目前(2019/04/23) 主 干分支的代码基于 PostgreSQL 9.4。合并到 PostgreSQL 9.5 的工作也已经开始,有关最新工作 进展请参见:https://github.com/greenplum-db/gpdb-postgres-merge。 1. 从源代码编译 Greenplum Greenplum --disable-gpfdist --prefix=$HOME/gpdb.master $ make [-j4] $ make install 在苹果系统上初始化Greenplum单节点集群时,需要做些准备工作: ● 添加export PGHOST=localhost至~/.bash_profile ● 将本机的hostname与127.0.0.1的map写到/etc/hosts中。例如0 码力 | 15 页 | 2.07 MB | 1 年前3
共 16 条
- 1
- 2