Greenplum 精粹文集
由此,业界认识到对于海量数据需要一种新的计算模式来支持,这种 模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 问 题 来 了, 在 X86 集 群 上 实 才是计算和加载发生的场所(当然, 在 HA 方面,Greenplum 提供 Standby Master 机制进行保证)。 再进一步看,Master-Slave 架构在业界的大数据分布式计算和云计 算体系中被广泛应用,大家可以看到,现在主流分布式系统都是采 用 Master-Slave 架 构, 包 括:Hadoop FS、Hbase、MapReduce、 Storm、Mesos...... 无一例外都是 Master-Slave Shuffle 对比 MPP 计算中的重分布 -- 由于 Hadoop 数据 与节点的无关性,Shuffle 是基本避免不了的;而 MPP 数据库对于 相同 Hash 分布数据不需要重分布,节省大量网络和 CPU 消耗。 Mapreduce 没有统计信息,不能做基于 cost-base 的优化;MPP 数据库可以利用统计信息很好地进行并行计算优化。例如,MPP 对 于不同分布的数据可以在计算中基于0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
........................................................................................ - 14 - 内联网络:Interconnect ..................................................................................... .......................................................................................... - 17 - 网络层冗余 ............................................................................................... .................... - 39 - 支持的客户端应用 ............................................................................................................ - 39 - GP 的客户端应用程序 .................................0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum 新一代数据管理和数据分析解决方案
2000 2005 2010 新一代数据库的要求 传统数据库的要求 今天的数据库供应商 网络运算的发展速度已经超过了主流数据库 • 海量规模 • 高性价比 • 高效率 数据库管理系统(DBMS)的 规模/容量 11 需要采用一种新的方法 •“一切皆可商用”:商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum • “黑盒子” • 高度灵活性 • 逐步扩展计算能力 • 动态措施 • 数据访问: • 在一个系统中协调所有企业数据的位置 • 可以通过任何语言(SQL、M/R等)进行分析 14 强大并且不断扩展的合作伙伴网络 硬件供应商 商务智能工具 15 服务供应商 业内支持和认可 行业奖励 “ Greenplum能够让企业在两 个方面同时达到最满意的效果: 供程序员使用的MapReduce以 及供数据库管理使用的 据进行并行分析 19 通过经济的方案扩展 到千万亿字节规模 • 不用担心数据增长或 者开始的规模太小 • 在商用硬件上通过线 性、经济的方式扩展 Greenplum数据引擎体系 主机 网络互连 并行查询规划和调度 区段服务器 (处理和存储) SQL 查询和 MapReduce程序 MPP (海量并行处理) “完全不共享”体系 Greenplum体系:并行数据流 21 •0 码力 | 45 页 | 2.07 MB | 1 年前3Greenplum on Kubernetes 容器化MPP数据库
跨云的需求 云数据库实现方案 云数据库需求 ● DBasS ○ 自动化运维 ○ 自动化调优 ● 弹性资源管理 ○ 存储资源 ○ 计算资源 ● 安全 ○ 用户数据 ○ 临时文件 ○ 网络传输 ○ 权限控制 ● 跨云 ○ 公有云 ○ 私有云 云数据库实现方案 ● 全新数据库 ○ Snowflake ● 原有数据库架构升级 ○ Vertica Eon Mode ● 容器化数据库+Kubernetes Segment Instance Segment Instance query Load Master节点和Standby Master节点 Greenplum 架构 Interconnect高速网络 Segment主机部署多个Segment实例 (Primary Segment和Mirror Segment) Greenplum 部署方案 ● Master节点和Standby Master分机部署 ? + = 容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● 容器资源分配 ○ CPU ○ 内存 ○ 磁盘 ● 容器间网络互联 ○ 本机网络 ○ 跨机网络 ● 容器化Greenplum部署策略 ○ Master部署策略 ○ Primary Segment部署策略 ○ Mirror Segment部署策略 ● 容器化Greenplum运维管理0 码力 | 33 页 | 1.93 MB | 1 年前3Pivotal Greenplum 最佳实践分享
gp_resqueue_status 观察到队列的使用情况,逐步调整参数到最优状态。 角色组和权限管理 在GPDB中,对象权限不能从Schema继承,新增的对象需要Grant授权给相应用户。 用户可以属于多个角色组role,用户可以从role继承权限 建议在系统建设时,按照功能、权限划分为较为固定的数个角色组,新增对象时只要把权限Grant到 相应角色组 Admin常用命令 查看数据库、表占用空间 – select pg_size_pretty(pg_relation_size(‗schema.tablename‘));(注:对于分区表的,不能直接应用于父表) – select pg_size_pretty(pg_database_size('databasename)); 注:必须在数据库所对应的存储系统里,保留30%作为临时空间 all_hosts--通过SC[同时拷贝文件到多个节点 – Ex: gpscp -f host_file installer.tar =:/ gpcheckperf--检查网络和硬盘性能(/etc/ssh/sshd_config#MaxStartups 10:30:100) – 检查Disk性能: gpcheckperf -f hosts-setup -d /data10 码力 | 41 页 | 1.42 MB | 1 年前3Greenplum上云与优化
2016Postgres中国用户大会 ApsaraDB for GP的定位 ApsaraDB for GP = 简单、高效解决大数据分析需求 MPP + 列存压缩 复杂SQL + 查询优化器 本地高效存储 +高速网络 +预置稳定资源 = = 2016Postgres中国用户大会 GP vs. RDS? Select count(*) from customer group by city Return 支持(B-tree、Bitmap) 不支持 2016Postgres中国用户大会 推荐应用架构 应用服务器 ECS VPC ApsaraDB for GP 主节点 子节点 子节点 子节点 子节点 子节点 子节点 子节点 子节点 应用服务器 应用服务器 阿里云服务 阿里云CDP服务 应用服务器 Tableau 应用服务器 2016Postgres中国用户大会 ApsaraDB for for GP的定位 ApsaraDB for GP = 简单、高效解决大数据分析需求 MPP + 列存压缩 复杂SQL + 查询优化器 本地高效存储 +高速网络 +预置稳定资源 = = 2016Postgres中国用户大会 ApsaraDB for GP的内核优化 2016Postgres中国用户大会 ApsaraDB for GP架构 ApsaraDB for GP 主节点0 码力 | 26 页 | 1.13 MB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系 统平台架构、创新性及核心特点, 同时介绍了 Greenplum 作为一款深受技术爱好者喜爱的、中立的纯开源软件,践行 “Run Everywhere”原则 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 Greenplum 与欧拉开源社区强强联手,不仅是双方业务用户所期盼的,同时也是 Greenplum 社区与对中国本地开源社 区的深入合作尝试。本次合作对双方打造丰富应用生态注入了鲜活动力! 完全兼容欧拉开源操作系统的 HTAP 器、云计算、边缘计算、嵌入式等应用场景,支持多样性计算,致力于提供安全、稳定、易用的操作系统。通过为应用 提供确定性保障能力,支持 OT 领域应用及 OT 与 ICT 的融合。 欧拉开源社区通过开放的社区形式与全球的开发者共同构建一个开放、多元和架构包容的软件生态体系,孵化支持多种 处理器架构、覆盖数字设施全场景,推动企业数字基础设施软硬件、应用生态繁荣发展。 openEuler0 码力 | 17 页 | 2.04 MB | 1 年前3Greenplum介绍
Master介绍 Master服务器是外面用户访问greenplum的入口。用户 都是连接master服务器的,对于外部用户来说,他并不 与segment host服务器发生任何关系,外部用户的网络 只需要与master服务器连通就可以了,不需要访问 segment host服务器。 所有的用户连接都是直接连接到master服务器上的。 Greenplum数据库是基于PostgreSQL数据库的,所以 host上建多个Segment数 据库,数量等于实际的CPU的core数。 Greenplum架构: 内部网络 Segment host与master是通过greenplum的内部网络互 联起来的,外部用户不需要访问这个内部网络的。 Segment 与Segment之间是有网络连接的,所以 Segment之间可以直接交互数据的。 Greenplum默认使用UDP协议,不过我们发现UDP有0 码力 | 38 页 | 655.38 KB | 1 年前3并行不悖- OLAP 在互联网公司的实践与思考
Ø 12台虚拟机,39台物理机 17 Greenplum现状说明 三大Greenplum集群定位分类 • 公司IDC_01机房Greenplum体系 Ø 公司第一套Greenplum集群,网络环境为千兆网 Ø 数据来源为OLTP库,针对小数据量传输和计算,部分实时交互操作 Ø 以对账业务为主,统计计算为辅 • 公司IDC_02机房Greenplum体系 Ø 针对数据来源主要是kfk产生csv文件的业务,不直接从数据库传数 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系 环境创建与部署 • 部署注意点 Ø 资源要充足(ETL,管理节点,数据节点,数据集市) Ø 万兆网络 (网络环境对功能和性能的影响) Ø 节点规划 (数据节点6-10个segment节点) Ø 参数调整 (操作系统参数,greenplum集群参数) 24 Greenplum运维体系 系统状态监控 考虑过去的问题,为现在的决策提供参考和依据 • 定位与整合 Ø 公司内网GP小数据量计算,GP加载csv数据,GP大数据量统计 Ø 年表与实例无关,可以形成一个整体的大的Greenplum平台 Ø 网络互通,数据互通,相互备份 • 细节的深化 Ø 在现有OLAP三部分进行细化 Ø 对数据集市本身进行细化 43 THANK YOU0 码力 | 43 页 | 9.66 MB | 1 年前3Greenplum开源MPP数据库介绍
Massively: q PB级的数据,单台主机无法处理 q 所以数据分布在多个主机上 q 高效、灵活的数据分布,和实际业务相关 Ø Parallel: q 数据并行处理计算 q 通过网络进行数据交换和汇总 Confidential │ ©2022 VMware, Inc. 7 执行架构 Interconnect Client Ø Coordinator: q 管理其它节点 Heap: 源自PG,固定页面 大小, 适合OLTP Ø Append Optimized: 没有 页面的概念,变长,行存、 列存、压缩,适合OLAP Ø 外部表: HDFS,S3,文件, 网络,命令,流式数据… Confidential │ ©2022 VMware, Inc. 16 Greenplum生态:Madlib Ø 在数据库内做机器学习 Ø 非常多的算法库 Confidential0 码力 | 23 页 | 4.55 MB | 1 年前3
共 18 条
- 1
- 2