Greenplum Database 管理员指南 6.2.1
+86 18616691889) 编写:陈淼 - 2 - 序言 术语约定 GP : Greenplum 数据库 Master : GP 的控制节点/实例 Standby : GP 的备用控制节点/实例 Host(主机) : GP 的一台独立的机器设备 Instance : GP 的计算实例,很多时候也叫 Segment Primary : .............................................................................. - 28 - 模拟 Row 级别的权限控制 ....................................................................................... - 29 - 密码加密 ...................................................................................... - 37 - 第五章:访问数据库 ...............................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
74 74 74 74 75 76 76 79 81 82 90 92 101 102 103 104 106 128 访问 访问UDW数据仓库 数据仓库 1 客⼾端⼯具访问UDW 2 图形界⾯的⽅式访问UDW 数据导⼊ 数据导⼊ insert加载数据 copy加载数据 外部表并⾏加载数据 从hdfs加载数据 从mysql中导⼊数据 从oracle中导⼊数据 194 196 198 198 198 200 201 201 202 202 202 203 203 203 203 203 204 205 206 访问 Hive 访问 HBase 使⽤ 使⽤ pg_dump 迁移数据 迁移数据 安装 greenplum-db-clients 使⽤ pg_dump 导出数据 使⽤ psql 重建数据 利⽤ 利⽤ hdfs 数据吗? UDW中怎么kill掉正在执⾏的SQL语句? 如何通过外⽹访问UDW? 节点扩容时数量有没有什么限制? 数据仓库价格 数据仓库价格 ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 5/206 概览 概览 产品架构 快速上⼿ 操作指南 访问UDW数据仓库 数据导⼊ 开发指南 udw优化指南 表膨胀 UDW中Json类型0 码力 | 206 页 | 5.35 MB | 1 年前3Greenplum 精粹文集
带来高效数据更新能力等还有很多方面,Postgresql 似 乎在这些 OLAP 功能上都比 mysql 更甚一筹。 5) Postgresql 许可是仿照 BSD 许可模式的,没有被大公司控制,社区 比较纯洁,版本和路线控制非常好,基于 Postgresql 可让用户拥有 更多自主性。反观 Mysql 的社区现状和众多分支(如 MariaDB), 确实有些混乱。 Big Date2.indd 5 16-11-22 实例层级。安装过 Greenplum 的同学应该都看到每个实例都有自己 的 Postgresql 目录结构,都有各自的一套 Postgresql 数据库守护进 程(甚至可以通过 UT 模式进行单个实例的访问)。正因为如此,甚 至一个运行在单节点上的 GreenplumDB 也是一个小型的并行计算架 构,一般一个节点配置 6~8 个实例,相当于在一个节点上有 6~8 个 Postgresql 数据库同时 16-11-22 下午3:38 Greenplum 精粹文集 15 2) 功能上的对比 MPP 数据库采用 SQL 作为主要交互式语言,SQL 语言简单易学, 具有很强数据操纵能力和过程语言的流程控制能力,SQL 语言是专 门为统计和数据分析开发的语言,各种功能和函数琳琅满目,SQL 语言不仅适合开发人员,也适用于分析业务人员,大幅简化了数据 的操作和交互过程。 而对 MapReduce 编程明显是困难的,在原生的0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum介绍
Client Host Greenplum架构: Master介绍 Master服务器是外面用户访问greenplum的入口。用户 都是连接master服务器的,对于外部用户来说,他并不 与segment host服务器发生任何关系,外部用户的网络 只需要与master服务器连通就可以了,不需要访问 segment host服务器。 所有的用户连接都是直接连接到master服务器上的。 Greenplum数据库是基于PostgreSQL数据库的,所以 可以用PostgreSQL数据库的工具来连接Greenplum数 据库,如java程序可以使用PostgreSQL的jdbc驱动来 访问Greenplum数据库,也可以使用psql工具或 pgadminII来管理Greenplum。 Greenplum架构: Master介绍 Greenplum的Master数据库也是一个被改造过的 host上建多个Segment数 据库,数量等于实际的CPU的core数。 Greenplum架构: 内部网络 Segment host与master是通过greenplum的内部网络互 联起来的,外部用户不需要访问这个内部网络的。 Segment 与Segment之间是有网络连接的,所以 Segment之间可以直接交互数据的。 Greenplum默认使用UDP协议,不过我们发现UDP有 时不稳定,我们一般都使用TCP协议。使用TCP协议,0 码力 | 38 页 | 655.38 KB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
........................................................................................... 10 并发控制优化 ................................................................................................ 这项技术对性能提升特别是 Update 和 Delete 至关重要。锁是数据库中实现并发控制的重要技术,随之而来的死锁 处理。Greenplum 创新性的采用了分布式死锁检测,更新删除表的锁级别已降低,支持并发更新删除操作,大大提 升了处理性能。 并发控制优化 Greenplum 6 除了全局死锁检测,还引入了多项其他并发控制优化方法,这些优化对 SELECT 和 INSERT 提升比较 大。一个优化有关 容器交互,以在容器中执行用户定义函数 (UDF),这样方便数据科学家可以在不需要 DBA 帮助的情况自由使用数据分析,同时大大提高了安全性,Docker 容器确保用户代码无法访问源主机的文件系统。此外,容器启动时网络访问受限,无法连接回 Greenplum 数据库或 打开任何其他外部连接。 集成分析:改进后的全新分析接口 一直以来,客户都能在 Greenplum 中做高级分析,无0 码力 | 17 页 | 2.04 MB | 1 年前3Greenplum 新一代数据管理和数据分析解决方案
现在被Greenplum用于数据仓库 现在的解决方案 12 Greenplum愿景:企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险 源文件 源数据 源数据 源文件 数据仓库和分析应 用程序 Greenplum数据架构 商用硬件集群 分析 数据 市场 实体整合 • 提高服务器使用率 • 降低总硬件成本 • 降低能量成本 • 可以预估的服务等级 • 确保关键任务的可靠性 • 最出色的性能 • 高度灵活性 • 逐步扩展计算能力 • 动态措施 • 数据访问: • 在一个系统中协调所有企业数据的位置 • 可以通过任何语言(SQL、M/R等)进行分析 14 强大并且不断扩展的合作伙伴网络 硬件供应商 商务智能工具 15 服务供应商 业内支持和认可 全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近 计算内核 Greenplu m并行数 据流引擎 对本地磁盘进行直 接的高性能访问 gNet 互连 • 第一个支持互联网级分析技术(由Google普及)的产品 • 采用新的编程模型,在商用硬件上并行处理和执行 • 可以使客户洞察力和数据货币化程度达到前所未有的高度 MapReduce0 码力 | 45 页 | 2.07 MB | 1 年前3深度揭秘Greenplum开源数据库透明加密
一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 • 支持PB级文件 • 丰富的ETL和外部组件 • 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb GPDB GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 管理集群 • 数据备份恢复 GPDB为单独数据库软件 • 非一体机 • 缺少对硬件和系统的控制 潜在风险(一) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 需要登录到系统进行运维 • 可以访问数据库二进制文件 • 可以访问数据库数据文件 • 可以访问预写日志文件 潜在风险(二) GPDB的数据安全 System Admin • 管理集群 管理集群 • 数据备份恢复 运维模式 • 原厂服务,主机厂或者第三方运维 数据文件为明文二进制文件 • 直接通过Linux自带工具(strings, hexdump)访问 • pg_waldump可以直接读取并显示预写日志 潜在风险(三) GPDB的数据安全 数据需要加密 • 机密数据 • 知识产权保护 • 审计要求 用户数据存在直接暴露的风险 • 非部门员工运维(原厂,主机厂或者合作伙伴)0 码力 | 48 页 | 10.19 MB | 1 年前3Greenplum分布式事务和两阶段提交协议
实现对A、I、D三个属性的支持 Isolation 隔离性 多个事务并发地执行,对每个事务来说,它并 不会感知系统中有其他事务在同时执行。 多版本并发控制Multi-Version Concurrency Control、 两阶段加锁(Two Phase Locking, 2PL)、乐观并发控制 (OCC) Durability 持久性 一个事务在提交之后,该事务对数据库的改变 是持久的。 Write Ahead Logging Hector Garcia-Molina /Jeffrey D.Ullman/Jennifer Widom《数据库系统实现》 查询编译器/ 优化器 事务管理器 DDL编译器 执行引擎 日志和恢复 并发控制 索引/文件/ 记录管理器 缓冲区管理器 缓冲区 锁表 存储管理器 存储 查询计划 对索引、文件和 记录的请求 页命令 事务命令 查询、更新 用户/ 应用 DDL命令 数据库管理员 be guaranteed 图片来源: Power consumption estimation using in-memory database computation 10 不同存储介质的访问时间 图片来源:Systems Performance: Enterprise and the Cloud,中译本《性能之巅》, 作者Brendan Gregg 11 缓冲区Buffer Pool0 码力 | 42 页 | 2.12 MB | 1 年前3Greenplum 6新特性: 在线扩容工具GPexpand剖析
更多算法细节请参考链接。https://arxiv.org/pdf/1406.2294.pdf – 通过GUC gp_use_legacy_hashops 可以控制,默认是Jump Consistent Hash算法 改进与实现 • 并行度控制 – gpexpand –B – 可以并行初始化每个新节点 – 并行执行expand表 ▪ 对表执行expand之后要更新gpexpand.status_detail表的状态 更新状态表时遇到瓶颈 ▪ Greenplum 6中因为全局死锁检测的引入可以对heap表做并行更新 改进与实现 • 扩容期间对查询的影响 – 新增节点阶段无法修改catalog – 对于正在重分布的表的读写访问均会被阻塞 – 对于分布状态不相同的哈希分布表的Join无法做优化 Q&A Thank you0 码力 | 37 页 | 1.12 MB | 1 年前3Greenplum on Kubernetes 容器化MPP数据库
云数据库实现方案 云数据库需求 ● DBasS ○ 自动化运维 ○ 自动化调优 ● 弹性资源管理 ○ 存储资源 ○ 计算资源 ● 安全 ○ 用户数据 ○ 临时文件 ○ 网络传输 ○ 权限控制 ● 跨云 ○ 公有云 ○ 私有云 云数据库实现方案 ● 全新数据库 ○ Snowflake ● 原有数据库架构升级 ○ Vertica Eon Mode ● 容器化数据库+Kubernetes ○ Apache Spark ○ CockroachDB ○ Apache HAWQ 云数据库存储方案 ● 块存储 ○ 文件系统接口 ● 对象存储 ○ 成本低 ○ 扩展性强 ○ 访问延迟高 Greenplum on Kubernetes Network Interconnect Standby Host Master Host Segment Host Segment Greenplum Operator Kubernetes Operator ● 自定义资源类型 ○ Custom Resource Definition (CRD) ○ 和内置资源用法一致 ● 自定义控制器 ○ Custom Controller (Operator) ○ 根据资源状态封装对资源的自定义操作 Greenplum CRD $ kubectl create -f my-gp-instance0 码力 | 33 页 | 1.93 MB | 1 年前3
共 23 条
- 1
- 2
- 3