Greenplum上云与优化
张广舟(明虚) 阿里云高级专家 Greenplum上云与优化 — ApsaraDB for Greenplum介绍 2016Postgres中国用户大会 目 录 content ApsaraDB for GP的定位 ApsaraDB for GP的内核优化 未来的规划 2016Postgres中国用户大会 ApsaraDB for GP的定位 2016Postgres中国用户大会 2016Postgres中国用户大会 ApsaraDB for GP的定位 GP的优势? 与其他技术的对比? 为什么上云? 2016Postgres中国用户大会 ApsaraDB for GP的定位 ApsaraDB for GP = 简单、高效解决大数据分析需求 MPP + 列存压缩 复杂SQL + 查询优化器 本地高效存储 +高速网络 +预置稳定资源 = = 2016Postgres中国用户大会 SQL Runtime 本地存储 >5-30倍的性能优势 2016Postgres中国用户大会 ApsaraDB for GP vs. AWS Redshift? “有史以来卖的最好的云服务” 对比项目 ApsaraDB for Greenplum(SSD/SATA) AWS RedShift 外部表 支持OSS外部表 无此设计 地理信息支持 支持(自带PostGIS) 不支持0 码力 | 26 页 | 1.13 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
6 7 7 8 10 10 16 38 38 39 39 39 40 43 44 45 46 47 ⽬录 ⽬录 ⽬录 ⽬录 概览 概览 产品架构 产品架构 云数据仓库产品架构 ⾼可⽤ 快速上⼿ 快速上⼿ ⼀、创建数据仓库 ⼆、连接数据仓库 操作指南 操作指南 关闭数据仓库 启动数据仓库 重启数据仓库 查看数据仓库详情 扩容数据仓库 更改数据仓库密码 扩展,客⼾可以在udw上使⽤MADlib的扩展功能,从⽽让机器学习变得简单,⽀持PostGIS,可以⽅便 的⽀持空间、地理位置应⽤。最新⽀持greeplum6.2.1版本。 云数据仓库产品架构 云数据仓库产品架构 云数据库仓库 UDW 服务的架构图如下所⽰: UDW 采⽤⽆共享的 MPP 架构,适⽤于海量数据的存储和计算。UDW 的架构如上图所⽰,主要有 Client、Master Node 24G 2000G(SATA)1500 15000 ⾼IO独享型 dc2.large 8核 32G 900G(SSD) 2300 23000 RSSD云盘型 rc1.large 4核 32G 600G(SSD) 1500 15000 RSSD云盘型 rc1.xlarge 8核 64G 1200G(SSD) 3000 30000 数据仓库价格 Greenplum数据仓库 UDW Copyright0 码力 | 206 页 | 5.35 MB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
白皮书 Pivotal Greenplum 5: 新一代数据平台 开源、支持多种云的高级分析数据平台 作者:Keaton Adams、 Dan Baskette、 Cesar Rojas pivotal.io/cn 白皮书 2 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 目录 ........................................................................................... 4 支持多种云不受限于基础架构的数据平台 ...................................................................................... 的核心特征,及多年来围绕该平台发展出的生态系统。 摘要 Pivotal Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在多云环境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查0 码力 | 9 页 | 690.33 KB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
............................................................................................ 8 构筑云化基座 ................................................................................................ .......................................................................................... 8 支持多种云不受限于基础架构的数据平台 ...................................................................................... 不同芯片的环境,适合本地部署、多云环境(公有云和私有云)中。Greenplum 6 及未来发布的 Greenplum 7 丰富的 HTAP 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多0 码力 | 17 页 | 2.04 MB | 1 年前3Greenplum 新一代数据管理和数据分析解决方案
10 数据库行业所面临的挑战 0 1 2 3 4 5 6 7 8 9 10 1995 2000 2005 2010 新一代数据库的要求 传统数据库的要求 今天的数据库供应商 网络运算的发展速度已经超过了主流数据库 • 海量规模 • 高性价比 • 高效率 数据库管理系统(DBMS)的 规模/容量 11 需要采用一种新的方法 •“一切皆可商用”:商业即用型x86 逐步扩展计算能力 • 动态措施 • 数据访问: • 在一个系统中协调所有企业数据的位置 • 可以通过任何语言(SQL、M/R等)进行分析 14 强大并且不断扩展的合作伙伴网络 硬件供应商 商务智能工具 15 服务供应商 业内支持和认可 行业奖励 “ Greenplum能够让企业在两 个方面同时达到最满意的效果: 供程序员使用的MapReduce以 及供数据库管理使用的 SQL。” Monash0 码力 | 45 页 | 2.07 MB | 1 年前3Greenplum on Kubernetes 容器化MPP数据库
AGENDA 云数据库背景 云数据库实现方案 Greenplum on Kubernetes Greenplum Operator 总结 云数据库背景 云数据库背景 ● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 → 半结构化/无模式 ○ 数据隔离 → 数据共享 ● 云数据库市场巨大 云数据库市场巨大 ● 云数据库增速巨大 ● DBasS的需求 ● 跨云的需求 云数据库实现方案 云数据库需求 ● DBasS ○ 自动化运维 ○ 自动化调优 ● 弹性资源管理 ○ 存储资源 ○ 计算资源 ● 安全 ○ 用户数据 ○ 临时文件 ○ 网络传输 ○ 权限控制 ● 跨云 ○ 公有云 ○ 私有云 云数据库实现方案 ● 全新数据库 ○ Snowflake ● 原有数据库架构升级 原有数据库架构升级 ○ Vertica Eon Mode ● 容器化数据库+Kubernetes ○ Apache Spark ○ CockroachDB ○ Apache HAWQ 云数据库存储方案 ● 块存储 ○ 文件系统接口 ● 对象存储 ○ 成本低 ○ 扩展性强 ○ 访问延迟高 Greenplum on Kubernetes Network Interconnect0 码力 | 33 页 | 1.93 MB | 1 年前3Greenplum 精粹文集
Segment 才是计算和加载发生的场所(当然, 在 HA 方面,Greenplum 提供 Standby Master 机制进行保证)。 再进一步看,Master-Slave 架构在业界的大数据分布式计算和云计 算体系中被广泛应用,大家可以看到,现在主流分布式系统都是采 用 Master-Slave 架 构, 包 括:Hadoop FS、Hbase、MapReduce、 Storm、Mesos...... 技术潮起潮落发生着时刻不停的变化,而在这变化中的 不变就是走向开放和开源的道路,即将到来的伟大变革是云计算时代 的到来,任何 IT 技术,从硬件到软件到服务,都逃不过要接受云计算 的洗礼,不能赶上时代潮流的技术和公司都将被无情的淘汰。大数据 也要拥抱云计算,大数据将作为一种数据服务来提供(DaaS-Dataas A Service),依靠云提供共享的、弹性、按需分配的大数据计算和存 储的服务。 Greenplum MPP Greenplum 也正在积极的拥抱云计算,Cloud Foundry 的 PaaS 云平 台正在技术考虑把 Greenplum MPP 做为 DaaS 服务来提供,对于 Mesos 或其它云计算技术的爱好者,也可以考虑采用容器镜像技术 + 集群资源框架管理技术来部署 Greenplum, 从而可以实现在公共计算 资源集群上的 MPP 敏捷部署和资源共享与分配。 总之,相信沿着开放、开源、云计算的路线继续前行,Greenplum0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum 介绍
Greenplum 介绍 Greenplum 是全球领先的开源大数据平台,是能够提供包含实时处理、弹性扩容、混合负载、云 原生和集成数据分析等强大功能的大数据引擎。 著名分析机构 Gartner 2019 年报告中,在经典数据分析领域 Greenplum 全球排名第三,实时分 析领域全球排名并列第四。Greenplum 是两个领域中排名前十的产品中的唯一一款开源产品。 银行、航旅纵横、中国 移动、华为等。自 2015 年开源以来,更是吸引了包括阿里云、百度云、中移动、旷世、去哪儿 网、易观、腾云科技、饿了么、金风科技在内大量开源用户。 Greenplum 大数据平台的优势 ● 一次打包到处运行的平台:部署灵活,不受限于硬件环境和平台,无论裸机、私有云、公 有云均可部署。硬件环境的普适性,提供了极大的灵活性,解放了硬件平台的制约和绑定, 从而 球有上百来自美国、中国、俄罗斯、日本、英国、德国、芬兰、瑞士等国家的贡献者,获得社会 各界的广泛关注。其中 Greenplum 中文社区尤为活跃,目前约有半数的贡献来自中国开发者,社 区贡献者包括阿里云、中移动等大公司,也有诸多中小公司和数据库爱好者。 开源之后,Greenplum 把敏捷软件开发方法学引入到分布式数据库的开发中,通过使用站立会议、 回顾会议、结对编程、持续集成、测试驱动、单周0 码力 | 3 页 | 220.42 KB | 1 年前3Greenplum机器学习⼯具集和案例
Center SQL Compatibility (Hyper-Q) 2017.thegiac.com Greenplum ⼤大数据平台 • 一次打包,到处运行:裸机、私有云、公有云 • 各种数据源:Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化0 码力 | 58 页 | 1.97 MB | 1 年前3基于 Greenplum 打造SaaS化电商服务平台
1报表全面迁移至GP 2017.6集群拆分 2018.9全面切换HDB4PG 2018.6ADB储备、2019.7上线 HDB4PG •数据压缩 •弹性扩容 •成熟稳定 •性能良好 •阿里云支持 THANKS 谢 谢 聆 听 2018.06.26 by 花名 www.jushuitan.com0 码力 | 7 页 | 547.94 KB | 1 年前3
共 15 条
- 1
- 2