Greenplum Database 管理员指南 6.2.1
........................................................................................ - 34 - 允许连接到 Master .......................................................................................... .................... - 35 - 限制并发连接数量 ............................................................................................................ - 36 - 客户端/服务端间的加密连接 ............................... .......................................................................................... - 44 - 连接故障排除 ..............................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum 6: 混合负载的理想数据平台
transaction processing - 联机事务处理 出色的OLTP特性 天生的优势 ● 行式存储 ● 索引 ● 直接分发 ● 完整的增删改 Greenplum 6 增强 ● 并发修改、删除 ● 系统性的优化事务和锁 26 Pivotal Confidential–Internal Use Only 行式存储 表‘SALES’ 表‘SALES’ ■ 更适合OLTP负载 ■ 支持更改删除、删除 ■ 支持更改分布键、主键(将数据从一个节点移到另一个节点) 30 Pivotal Confidential–Internal Use Only Greenplum 6:并发改删和分布式死锁检测 全局死 锁检测 gpconfig -c ‘gp_enable_global_deadlock_detector’ -v on 31 Pivotal Confidential–Internal 大幅减少事务开始和结束时的锁冲突 ■ 消除隐式只读操作(单条SELECT)的锁冲突 ■ 避免显式只读事务(BEGIN-SELECT-END)的两阶段提交 (开发中) ■ fastpath锁(PostgreSQL合并) 32 Pivotal Confidential–Internal Use Only TPC-B基准测试:环境 基于谷歌云平台(Google Cloud Platform,简称GCP),为5个虚拟主机的集群,包含一0 码力 | 52 页 | 4.48 MB | 1 年前3Greenplum 排序算法
● 堆排序算法 堆排序 21 ● 归并排序分为两个阶段,阶段一是分割阶段,将原始待排序数据分成若干个顺 串。阶段二是合并阶段,将所有小顺串合并成一个包含所有数据的大顺串 外排序之归并排序 1 7 4 8 1 7 4 8 1 4 7 8 待排序数据 分割阶段 合并阶段 22 ● 问题一:分割阶段只需要顺序扫描一次外存,最简单的策略是读取外存数据,加 载到内存,当内存用满时,执行快 载到内存,当内存用满时,执行快速排序等内排序算法,生成一个顺串。之后清 空内存,继续读取外存数据,如此反复,直到所有外存数据处理完毕。该算法生 成的每一个顺串的大小都不会超过内存的大小,而顺串越小,合并阶段的代价 就越高,需要读取外存的次数也越多,有没有办法在分割阶段就生成大于内存 大小的顺串呢? 归并排序的三个问题 23 替换选择算法 24 Knuth 5.4.1R替换选择算法: ● 1. 初始化阶段,读取输入元组至内存,并建立最小堆。 25 ● 问题二:合并阶段假设存在N个输入缓冲区,如何高效的比较N个输入缓冲区的 最小值,并输出到输出缓冲区? 归并排序的三个问题 26 ● 假设顺串(长度为L)分布在K个文件中,顺串合并时需要K个输入缓冲区和1个输 出缓冲区,每次选取K个缓冲区的最小值,输出到输出缓冲区。最后,输出缓冲 区输出的顺串长度为L*K ● 算法复杂度 O(K* (L*K)) 顺串合并 1 10 30 440 码力 | 52 页 | 2.05 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
39 40 43 44 45 46 47 ⽬录 ⽬录 ⽬录 ⽬录 概览 概览 产品架构 产品架构 云数据仓库产品架构 ⾼可⽤ 快速上⼿ 快速上⼿ ⼀、创建数据仓库 ⼆、连接数据仓库 操作指南 操作指南 关闭数据仓库 启动数据仓库 重启数据仓库 查看数据仓库详情 扩容数据仓库 更改数据仓库密码 续费 删除数据仓库 查看操作⽇志 查看监控 ⽬录 Greenplum数据仓库 数据导⼊ insert加载数据 copy加载数据 外部表并⾏加载数据 从hdfs加载数据 从mysql中导⼊数据 从oracle中导⼊数据 从ufile加载数据 开发指南 开发指南 1、连接数据库 2、数据库管理 3、模式管理 4、表格设计 5、加载数据 6、分区表 7、序列 8、索引 9、 ANALYZE/VACUUM 10、常⽤SQL⼤全 12、常⽤SQL命令 集群表数据写⼊ hdfs 3. 在⽬的 greenplum 集群中创建 hdfs pxf 可读表 4. 从 hdfs 外部表中读取数据并写⼊⽬的 greenplum 集群 FAQs 创建好数据仓库之后怎么连接到UDW? UDW⽀持从mysql导⼊数据吗? HDFS/Hive与UDW之间可以导⼊导出数据吗? UDW中怎么kill掉正在执⾏的SQL语句? 如何通过外⽹访问UDW? 节点扩容时数量有没有什么限制?0 码力 | 206 页 | 5.35 MB | 1 年前3Pivotal Greenplum 最佳实践分享
Greenplum运维常用命令 Greenplum日常检查和故障处理 Greenplum项目经验分享 内核参数 通常情况下,内核参数按照GPDB安装手册配置,如需要增加连接数支持,以下参数需要增大 kernel.shmmax = 1000000000 kernel.sem = 250 512000 100 2048 Redhat 6.2以后,内 节点一般配置4~8个Instance,初始化完成后很 难修改,需要提前规划; • 每个Instance都是一套独立的进程,当客户端 发起一个请求时,每个Instance都将FORK子进 程并行工作; • 对于并发请求高、面向于复杂的灵活查询的系 统,建议每个Segment配置4个或以下Instance, 这样来保证每个Instance所需资源,保证系统 系统运行稳定性,例如,减少OOM发生的概率; • 对于少数频繁查询的宽表,例如交易表、帐户表、客户表等采用列存储,其它表采用行存储 数据压缩: • 在金融业,行压缩的数据压缩比在1:6左右,一般采用zlib5级压缩 • 数据压缩对于高并发查询分析系统可以大幅降低IO消耗,提升并行处理、混合负载的性能 分布键使用: • 尽量采用一个常用关联字段作为分布键,例如账号、客户号,这个可以提高关联条件的命中率,减少关联时数据重分布0 码力 | 41 页 | 1.42 MB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
............................................................................................. 10 并发控制优化 .............................................................................................. m 6 及未来发布的 Greenplum 7 丰富的 HTAP 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 15%-17%,值得一提的是此论文主要由中国研发团队完成,也说明了中国研发团队实力处于世界一流水平。在论文 中 Greenplum 团队提出一种全新的全局死锁检测器来减少独占锁的使用,减少独占锁的使用可以极大的提高数据库 在高并发状态下的性能,这项技术已经在 Greenplum6 实现。 在 Greenplum6 和即将发布的 Greenplum 7, 带来了多项产品改进和新增功能,这些功能提升了性能,增加了系统可0 码力 | 17 页 | 2.04 MB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
有云和私有云)中,也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查 询。与旧式 MPP 数据库中常用的传统 RDBMS 查询优化器相比,GPORCA 大幅度地提高了查询性能。 Pivotal Greenplum 5:新一代数据平台 作为重要的新版本,Pivotal PostgreSQL 规划器的衍 生产品。PostgreSQL 规划器最初是为单节点 PostgreSQL 设计的,更适用于 OLTP 查询,而不是分析数据平台中长时间运 行的查询。尽管具有精心设计的连接排序之类的功能,但架构和设计选项导致维护和添加新功能变得越来越难。1 2010 年底,Greenplum 开始在内部开发一款新型查询优化器,并在 Greenplum 4.3.5 版中首次推出,名为 GPORCA 能够针对分析数据仓库中常见的一些复杂情况生成更高效的代码,因而非常实用。过去,系统默认使用传统查询 优化器,但自 Greenplum 5 起,GPORCA 将成为默认查询优化器。它能够通过并发的混合工作负载处理多种复杂查询, 并可提高查询性能。2 这样一来,大型团队就可以利用高级分析和多元化工作负载并行处理多个分析用例,针对大型数据卷实现较高的分析查询 性能。GPORCA 的强大之处在于0 码力 | 9 页 | 690.33 KB | 1 年前3并行不悖- OLAP 在互联网公司的实践与思考
Ø实时,在线系统,客户使用 Ø事务小,频率高,并发高 • 过去的数据 —— OLAP Ø非实时(T+1,或小时级),离线系统,分析决策 Ø事务大,频率相对小,并发低 • 未来的数据 —— 趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Greenplum扩展规划 六 10 greenplum体系架构 postgresql体系结构 11 greenplum体系架构 postgresql体系结构 • pg结构组成 Ø 连接关系系统 Ø 编译执行系统 Ø 存储执行系统 Ø 事务系统 Ø 系统表 • pg逻辑和物理结构 Ø instance实例 - user - tablesapce Ø database - schema Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 34 Greenplum开发规范 不规范容易出现的问题 • GP架构易出现问题 Ø 资源不足 Ø 连接、语句执行失败 Ø 多任务冲突 • 库表使用易出现问题 Ø 表定义过大 Ø 表类型单一 Ø 表的散列键不恰当 Ø 分区表的分区键性能不佳 • 加载易出现问题 Ø 文件加载出现特殊字符 Ø 数据校验标准问题0 码力 | 43 页 | 9.66 MB | 1 年前3Greenplum 架构概览
模型,同时使⽤多进程的⽅式⽀持并发查询与写⼊。也就是说, 每当有⼀个客户端连接⾄ PG 时,就会有⼀个⼦进程被创建出来。postmaster 进程和 postgres 进程之间采⽤共享内存进⾏通信 client 和 PG 之间的通信过程 client 调⽤ libpq 库向 PG 的 Postmaster 进程发起连接请求 PG fork 出⼀个 postgres 进程与该客户端建⽴连接,postmaster0 码力 | 1 页 | 734.79 KB | 1 年前3Greenplum 精粹文集
在那个测试中,测试性能也大幅低于 Greenplum(那个测试中,各厂 商基于客户提供的完全相同的硬件环境,Greenplum 是唯一一家完成 所有测试的,特别在混合负载测试中,Greenplum 的 80 并发耗时 3 个多小时就成功完成了,其它厂商大都没有完成此项测试,唯一完成 的一家耗时 40 多小时)。 Big Date2.indd 9 16-11-22 下午3:38 10 前文提到,得益于 的是并行计算能力,是对大任务、复杂任务的快速高效计算,但如果 你指望 MPP 并行数据库能够像 OLTP 数据库一样,在极短的时间处 理大量的并发小任务,这个并非 MPP 数据库所长。请牢记,并行和 并发是两个完全不同的概念,MPP 数据库是为了解决大问题而设计的 并行计算技术,而不是大量的小问题的高并发请求。 再通俗点说,Greenplum 主要定位在 OLAP 领域,利用 Greenplum MPP 数据库做大数据计算或分析平台非常适合,例如 报表工具的兼容性不如 MPP 数据库 SQL-On-Hadoop 不擅长于交互式(interactive)的 Ad-hoc 查询, 大多通过预关联的方式来规避这个问题;另外,在并发处理方面的能 力较弱。高并发场景下,需要控制计算请求的并发度,避免资源过载 导致的稳定性问题和性能下降问题。 3) 架构灵活性的对比 前面提到,为保证数据的高性能计算,MPP 数据库节点和数据之 间是紧耦合的,相反,Hadoop0 码力 | 64 页 | 2.73 MB | 1 年前3
共 25 条
- 1
- 2
- 3