Greenplum数据库架构分析及5.x新功能分享
Confidential–Inter nal Use Only 1 © Copyright 2013 Pivotal. All rights reserved. Greenplum 数据库架构分析及5.x 新功能分享 杨瑜 Pivotal中国研发中心 2 Pivotal Confidential–Inter nal Use Only 日程 Greenplum 数据库(GPDB)简介 Greenplum0 码力 | 44 页 | 8.35 MB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
.......................................................................................... 4 集成分析:改进后的全新分析接口 .......................................................................................... ............................................................................................. 8 其他功能特性 ................................................................................................ 作为重要的新版本,Pivotal Greenplum 5 带来了多项产品改进和新增功能,在管理数据和对数据库中存储的信息应用数据 科学、分析、报告和数据洞察方法方面,这些功能对大多数客户都很有帮助。Greenplum 解决方案的架构设计目的是管理 非常复杂的查询,以及为符合 ANSI 标准的 SQL 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询,它让 服务器群集能够以单一数据超级计0 码力 | 9 页 | 690.33 KB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
........................................................................................ 12 集成分析:改进后的全新分析接口 .......................................................................................... • 新文件系统 EulerFS:面向非易失性内存的新文件系统,采用软更新、目录双视图等技术减少文件元数据同步 时间,提升文件读写性能。 • 内存分级扩展 etMem:新增用户态 swap 功能,策略配置淘汰的冷内存交换到用户态存储,用户无感知,性能 优于内核态 swap。 2. 夯实云化基座 容器操作系统 KubeOS:云原生场景,实现 OS 容器化部署、运维,提供与业务容器一致的基于 特性,运行符合 ANSI 标准 的 SQL,可以让服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或其他同类平台高出数十甚 至数百倍。其多种分析扩展功能支持 ANSI SQL,并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够 管理各种规模的数据容量,数据量从数 GB 到数 PB 不等。 Greenplum 环境适用性强与其开放性、真正开源、社区活跃有密不可分的关系,一方面0 码力 | 17 页 | 2.04 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 POC 测试,有开发支持,有故障支持,有 长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 Greenplum 的 成长,见证了 Greenplum 从闭源到开源的成长历程,一路给 定义限制 Role 登录的时间段,在指定的时间段内不允许登 录。可以指定日期或者日期加时间的格式。这些信息存储在 pg_catalog.pg_auth_time_constraint 系统表中。 该功能鲜有使用,该系统表的维护一直存在明显的问题,该 表没有约束限制,完全相同的限制信息可以被重复的存储在 该系统表中。 例如下面的例子: =# ALTER ROLE reuser WITH DNS 的解析,如果 hostname 解析出的 IP 地址与访问时的 IP 地址不能匹配,则访问会被拒绝。通常可能没有必要使用 hostname 来进 行配置,这个特性主要是为了 gp4k 而新增的功能。 IP-address IP-mask 通过标准子网掩码的格式作为掩码长度的可选方案。其被作为一个单独的 字段。255.0.0.0 等效于 IPv4 的 8 位掩码长度。255.2550 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum 新一代数据管理和数据分析解决方案
“黑盒子” • “大铁箱” • 大磁盘 过去Google™ 曾经用来实现信息搜索功能的技术, 现在被Greenplum用于数据仓库 现在的解决方案 12 Greenplum愿景:企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险 源文件 源数据 源数据 源文件 进行了优化,解决了所有数据流瓶颈问题 Greenplum数据引擎 全球最强大的分析数据仓库 海量并行查询 • 可以比以往更快地获取 查询结果 • 在数据增长的同时确保 高性能分析 统一的分析处理功能 • 为数据仓库、市场、 ELT、文本挖掘、统计 运算提供统一的平台 • 可以使用SQL、 MapReduce、R等在 所有层次上对任何数 据进行并行分析 19 通过经济的方案扩展 到千万亿字节规模 将SQL的普遍性与MapReduce的灵 活编程模式结合起来 • 针对业务关键分析功能提供企业级集 成、支持和发布 • 为新一代分析处理技术开启了大门– 其中包括文本分析、图形分析、数据 挖掘、机器学习以及更多内容 客户实例:福克斯互动媒体 (Fox Interactive Media) • 业务问题 • 改进定位广告 • 竞争对手 • Teradata, Oracle • 数据规模0 码力 | 45 页 | 2.07 MB | 1 年前3Greenplum机器学习⼯具集和案例
thegiac.com 金融 保险 医疗 汽车 制造 科研 政府机构 互联网 娱乐和媒体 零售 MADlib ⽤用户和场景 2017.thegiac.com 功能 Data Types and TransformaJons Array and Matrix Operations Matrix FactorizaDon • Low Rank • 验证 预测 信息价值 ⽅方差膨胀 因⼦子 成对相关性 逻辑回归 Elastic Net 特征选择 模型 1 2 3 4 5 6 改进后的 in-database 流程 2017.thegiac.com 数据编辑/整理理 之前 之后 性能提升 ● 181 ⾏行行代码 ● 75 分钟 ● 116 ⾏行行代码0 码力 | 58 页 | 1.97 MB | 1 年前3Greenplum 6新特性: 在线扩容工具GPexpand剖析
在线扩容工具GPexpand剖析 杜佳伦 (jdu@pivotal.io) 大纲 • Greenplum 集群部署 • GPExpand简介与具体用法 • Greenplum 6中GPExpand的改进与实现 Greenplum 集群部署 Greenplum 集群部署 • gp_segment_configuration 字段名 描述 dbid 每个节点的唯一id content 每个 6中GPExpand的改进与实现 • 在线不停机 • 数据重分布优化 • 并行的优化 改进与实现 • 如何做到不停机 – 增加新节点只要在gp_segment_configuration里添加新节点信息即可 – 新节点以Master为模板生成,只包含catalog,没有数据 改进与实现 • 问题 – 生成模板的过程中,如果catalog被修改怎么保证一致性 改进与实现 • 问题 ▪ 新增catalog锁 ▪ select gp_expand_lock_catalog() ▪ expand过程中申请写锁 ▪ 其他修改catalog操作时也会申请锁来实现与expand的互斥 改进与实现 • 数据重分布的优化 – 扩容后,新节点没有数据,查询Plan如何做??? ▪ 在Greenplum 5和之前的版本里会将所有的表改成随机分布,然后再ALTER成按列 分布 ▪ Greenplum0 码力 | 37 页 | 1.12 MB | 1 年前3Greenplum 精粹文集
SQL 完全支持外,还支持比如分析函数(SQL2003 OLAP window 函数),还可以用多种语言来写存储过程,对于 Madlib、R 的支持也很好。这一点上 MYSQL 就差的很远,很多分 析功能都不支持,而 Greenplum 作为 MPP 数据分析平台,这些功 能都是必不可少的。 2) Mysql 查询优化器对于子查询、复制查询如多表关联、外关联的支 持等较弱,特别是在关联时对于三大 join join),而多个大表关联分析时 hash join 是必备的利器,缺少这些关键功能非常致命,将难于在 OLAP 领域充当大任。我们最近对基于 MYSQL 的某内存分布式数据库做 对比测试时,发现其优点是 OLTP 非常快,TPS 非常高(轻松搞定 几十万),但一到复杂多表关联性能就立马下降,即使其具有内存 计算的功能也无能为力,就其因估计还是受到 mysql 在这方面限制。 3) 扩展性方面,Postgresql PLSQL 等等语言来扩展功能,在后续章节中,我将展现这种扩展 是如何的方便,另外,开发新的功能模块、新的数据类型、新的索 引类型等等非常方便,只要按照 API 接口开发,无需对 PG 重新编译。 PG 中 contrib 目录下的各个第三方模块,在 GP 中的 postgis 空间 数据库、R、Madlib、pgcrypto 各类加密算法、gptext 全文检索都 是通过这种方式实现功能扩展的。 4) 在诸如0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum介绍
Greenplum介绍 唐成 - 2011.02.17 汇 报 提 纲 Greenplum VS hadoop Greenplum架构 Greenplum的高可用方案 GP分布式数据库功能介绍 理解GP的查询处理 Greenplum VS hadoop 比较项 Greenplum Hadoop+hive 软件性质 商业软件 开源 集群规模 mirror端的数据不同步了,所以恢复的时候需要花比较 长的时间。对于Greenplum 3.X的版本,恢复时,需要 把好的节点上的所有数据都copy到坏的机器上。而 Greenplum4.0版本增加了功能,当备份节点坏的时 候,主节点可以把增量数据记下来,这样当备份节点的 主机恢复时,只需要恢复增量数据就可以了。 要让原先已offline的节点再加入集群中,需要重启集 群。 Greenplum中的高可用方案 基本上绝大多数PostgreSQL支持的SQL,在 greenplum都支持,如常见的建表、建索引的ddl,以及 一般的dml语句。 Greenplum3.X不支持表空间。4.0提供了支持 tablespace功能。 不支持trigger。 建表语句多了distributed by 子名外, 其它的SQL语法 基本上都与PostgreSQL一样: CREATE TABLE products (name0 码力 | 38 页 | 655.38 KB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
概览 概览 产品架构 快速上⼿ 操作指南 访问UDW数据仓库 数据导⼊ 开发指南 udw优化指南 表膨胀 UDW中Json类型 接⼊第三⽅ BI ⼯具 UDW 使⽤案例 Pxf 扩展功能 迁移数据 使⽤ pg_dump 使⽤ pxf 外部表 FAQs 数据仓库价格 概览 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 完全托管的PB级数据仓库服务。UDW可以通过SQL让数据分析更简 单、⾼效,为互联⽹、物联⽹、⾦融、电信等⾏业提供丰富的业务分析能⼒。⽀持MADlib扩展,客⼾可以在udw上使⽤MADlib的扩展功能,从⽽让机器学习变得简单,⽀持PostGIS,可以⽅便 的⽀持空间、地理位置应⽤。最新⽀持greeplum6.2.1版本。 云数据仓库产品架构 云数据仓库产品架构 云数据库仓库 UDW 服务的架构图如下所⽰: 服务的架构图如下所⽰: UDW 采⽤⽆共享的 MPP 架构,适⽤于海量数据的存储和计算。UDW 的架构如上图所⽰,主要有 Client、Master Node 和 Compute Node 组成。基本组成部分的功能如下: 产品架构 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 7/206 1. Client:访问 UDW 的客⼾端 ⽀持通过 JD0 码力 | 206 页 | 5.35 MB | 1 年前3
共 16 条
- 1
- 2