Greenplum 6新特性: 在线扩容工具GPexpand剖析
Greenplum 6新特性: 在线扩容工具GPexpand剖析 杜佳伦 (jdu@pivotal.io) 大纲 • Greenplum 集群部署 • GPExpand简介与具体用法 • Greenplum 6中GPExpand的改进与实现 Greenplum 集群部署 Greenplum 集群部署 • gp_segment_configuration 字段名 描述 dbid distclass 分布列的操作类 GPExpand简介与具体用法 • GPExpand是Greenplum的扩容工具,可以为集群增加新的节 点来支持更大容量的存储和更高的计算能力。 • 随着Greenplum一起安装发布,在$GPHOME/bin下面,和其 他辅助工具,如gpstart,gpstop,gpactivatestandby一样,是一个 用python写的命令行脚本。 GPExpand简介与具体用法0 码力 | 37 页 | 1.12 MB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
......................................................................................... 8 完善的生态工具链 ................................................................................................. 的管理体验。 • 安全容器方案:iSulad+shimv2+StratoVirt 安全容器方案,相比传统 docker+qemu 方案,底噪和启动时间 优化 40%。 • 双平面部署工具 eqqo:ARM/X86 双平面混合集群 0S 高效一键式安装,百节点部署时间<15min。 3. 探索场景创新 边缘计算:发布面向边缘计算场景的版本 openEuler21.09Edae 4. 繁荣社区生态 友好卓面环境:UKUDDEXfce 卓面环境,丰富社区卓面环境生态。 • 欧拉 DevKit:支持操作系统迁移、兼容性评估、简化安全配置 secPaver 等更多开发工具。 Greenplum:新一代 HTAP 数据平台 Greenplum 自 2006 年发布第一个版本以来,就以精巧架构、简单易用、运行稳定、优异性能、环境适应性强在 MPP 数据库领域独占鳌头,基于0 码力 | 17 页 | 2.04 MB | 1 年前3Greenplum机器学习⼯具集和案例
thegiac.com www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com Greenplum: Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) • MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com 在线注册 - ⽹网⻚页浏览历史 - 地理理信息数据 - 业务部⻔门信息 - ⽹网站⽤用户信息 • TB 级别数据 • 1000+ 特征 平台 建模⼯工具 PL/pgSQL 数据和技术预览 2017.thegiac.com 数据整理理 数据准备 信息价值和证据权 重 成对相关性 删除⾼高度相关变量量 逻辑回归 计算0 码力 | 58 页 | 1.97 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
本文档的版权归[陈淼]个人所有,未经许可和授权不得抄袭和引用。 本文档中的绝大部分内容都经过编者重新考量和实测验证,有些观点与官方手册有 出入,仅代表编者本人观点,与官方手册无关。本书中可能会提及一些非官方的命令和 工具等,仅用于讲解相关知识,如有缺失相关细节的情况,请谅解。 致读者 如果您在阅读和参考本书的过程中发现有任何不妥之处,或者有任何的建议和意见, 欢迎联系编者,本书主要针对 GP 数 ... - 44 - Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 4 - 第三方客户端工具 .................................................................................................. ....................................................................................... - 410 - 命令工具与 admin_group 的 CONCURRENCY 属性 ......................................... - 410 - 资源队列管理内存等资源 .....0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum数据库架构分析及5.x新功能分享
All rights reserved. Greenplum 架构 6 Pivotal Confidential–Inter nal Use Only 平台概况 产品特性 客户端访问和工具 多级容错机制 无共享大规模并行处理 先进的查询优化器 多态存储系统 客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 语言支持 标准SQL支持,SQL 2003 OLAP扩展 支持 MapReduce 扩展编程语言 (Python,R, Java, Perl, C/C++) 第三方工具 BI 工具, ETL 工具 文本分析,数据挖掘等 管理工具 GP Command Center GP Workload Manager 7 Pivotal Confidential–Inter nal Use Only0 码力 | 44 页 | 8.35 MB | 1 年前3Greenplum 精粹文集
基 本 上 99% 都 可 以 在 Greenplum 上 使 用, 例 如 odbc、jdbc、oledb、perldbi、python psycopg2 等,所以 Greenplum 与第三方工具、BI 报表集成的时候非 常容易;对于 postgresql 的 contrib 中的一些常用模块 Greenplum 提 供了编译后的模块开箱即用,如:oraface、postgis、pgcrypt 查询计划执行是并行的、索 引的建立和使用是并行的, 统计信息收集是并行的、表 关联(包括其中的重分布或 广播及关联计算)是并行的,排序和分组聚合都是并行的,备份恢复 也是并行的,甚而数据库启停和元数据检查等维护工具也按照并行方 式来设计。得益于这种无所不在的并行,Greenplum 在数据加载和数 据计算中表现出强悍的性能,某行业客户对此深有体会 : 同样 2TB 左 右的数据,在 Greenplum 中不到一个小时就加载完成了,而在用户传 需要预先将数据装载到 DataFrames 模型中; 基本上都缺少索引和存储过程等特征 除 HAWQ 外,大多对于 ODBC/JDBC/DBI/OLEDB/.NET 接口的支持 有限,与主流第三方 BI 报表工具的兼容性不如 MPP 数据库 SQL-On-Hadoop 不擅长于交互式(interactive)的 Ad-hoc 查询, 大多通过预关联的方式来规避这个问题;另外,在并发处理方面的能 力较弱。高0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum 介绍
C 等。 ● 支持标准的平台:支持 SQL、JDBC 和 ODBC 等行业标准。经过半个多世纪的发展, SQL 成为了数据平台的万向头,向上可以连接各种 BI 工具、可视化工具和数据分析工具, 向下可以连接各种 ETL 工具、各种数据源和各种格式的数据等。 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache0 码力 | 3 页 | 220.42 KB | 1 年前3Pivotal Greenplum 最佳实践分享
实例下的文件数非常多,将这些目的档重分布到新扩展的节 点时间会很长 – 系统表(pg_class,pg_attribute)太大,影响系统工作效率 – 系统元数据检查pg_checkcat等工具运行时间比较长 物理模型经验分享 物理模型对于系统性能有很大影响,因此需要我们特别关注。 以下来自于在某大型银行的使用经验: 行存储和列存储: • 避免过多使用列存储的原因是防止小档数过多。 检查数据库pg_log日志是否有Panic错误、OOM等错误 检查Raid卡和磁盘状态 – 检查磁盘状态是否正常,是否有degrade – 检查Raid卡状态和WriteBack – DCA v1使用omreport工具来检查,DCAv2采用CmdTool2 或MegaCli 问题定位方法 现象-系统突然运行缓慢 对于此类问题,问题原因可能是多方面的,定位比较困难,首先需要判断是硬件原因导致 其它辅助定位方法和工具: 获取某一时段正在执行的SQL gpperfmon=# select * from queries_history wheretfinish >=#datetime# and tstart<=#datetime#; 查询某一时间正在运行的SQL非常有用,可以帮助我们重现当时的情景,有助于判断那个SQL是否有问题,找到问题根源 Linux工具可以帮助我0 码力 | 41 页 | 1.42 MB | 1 年前3深度揭秘Greenplum开源数据库透明加密
潜在风险(二) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 运维模式 • 原厂服务,主机厂或者第三方运维 数据文件为明文二进制文件 • 直接通过Linux自带工具(strings, hexdump)访问 • pg_waldump可以直接读取并显示预写日志 潜在风险(三) GPDB的数据安全 数据需要加密 • 机密数据 • 知识产权保护 • 审计要求 calculating key Data (Encrypted) Data (decrypted) pgcypto pgcypto的问题 改变原有查询逻辑 • 不兼容现有查询语句 • 不兼容ETL工具 性能低 • 不支持索引 • 优化器无法使用,需要全表扫描 局限性高 • 多表关联查询需要先全表解密 • 只能加密表数据 pgcypto的问题 一款开源的HTAP数据库: • MPP架构0 码力 | 48 页 | 10.19 MB | 1 年前3Greenplum介绍
所有的用户连接都是直接连接到master服务器上的。 Greenplum数据库是基于PostgreSQL数据库的,所以 可以用PostgreSQL数据库的工具来连接Greenplum数 据库,如java程序可以使用PostgreSQL的jdbc驱动来 访问Greenplum数据库,也可以使用psql工具或 pgadminII来管理Greenplum。 Greenplum架构: Master介绍 Greenplum的Master数据库也是一个被改造过的0 码力 | 38 页 | 655.38 KB | 1 年前3
共 14 条
- 1
- 2