完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
白皮书 开源 Greenplum 新篇章: 兼容欧拉开源操作系统的数据平台 支持国产生态的高级分析数据平台 作者:Greenplum 中文社区、 欧拉开源社区 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 ............................................................................................ 8 繁荣社区生态 ................................................................................................ ........................................................................... 12 Greenplum 中文社区在欧拉开源社区中的贡献 .................................................................................... 13 openEuler0 码力 | 17 页 | 2.04 MB | 1 年前3Greenplum 介绍
MPP 的优势,提高了分析的效率;MADlib 可 以在全量数据而不是抽样数据上进行分析,提高了精度。 ● 开放源代码且持续大力投入的平台: 2017 年 Pivotal 在 github 的开源贡献列表中全球排 名第四左右。 采用开源方案,不担心后门问题,不担心被锁定。开源还可以构建更好的 生态。 ● 采用敏捷软件开发方法开发的平台:Greenplum 采用敏捷方法开发,实现了快速迭代、持 在纽约证券交易所上市,目前市值 60 多亿美元。 开源社区和生态 Greenplum 基于世界上最先进的开源数据库 PostgreSQL。 2015 年 10 月 Pivotal 正式把投资超过 10 年的 Greenplum 开源,采用 Apache 2 协议,成为世界 上第一款成熟的开源 MPP 数据库。开源之后,Greenplum 社区发展活跃,短短 2 年左右,在全 球有上百来自美 球有上百来自美国、中国、俄罗斯、日本、英国、德国、芬兰、瑞士等国家的贡献者,获得社会 各界的广泛关注。其中 Greenplum 中文社区尤为活跃,目前约有半数的贡献来自中国开发者,社 区贡献者包括阿里云、中移动等大公司,也有诸多中小公司和数据库爱好者。 开源之后,Greenplum 把敏捷软件开发方法学引入到分布式数据库的开发中,通过使用站立会议、 回顾会议、结对编程、持续集成、测试驱动、单周迭代等敏捷方法建立了高效的快速反馈系统,0 码力 | 3 页 | 220.42 KB | 1 年前3Greenplum上云与优化
OSS作为“数据湖”,GP作为分析引擎 2016Postgres中国用户大会 支持外部扩展已插件形式管理 支持插件创建的语法 CREATE EXTENSION DROP EXTENSION Patch已提交社区 2016Postgres中国用户大会 HyperLogLog支持 create extension hll; create table access_date (acc_date date 2016Postgres中国用户大会 未来规划 满足客户需求! 列存优化 – 某些场景下提高数倍性能 CPU优化 – 对GP执行器的静态编译优化 流式备份 – 实时的物理备份 社区参与 – 成为社区积极的贡献者 2016Postgres中国用户大会 2016Postgres中国用户大会0 码力 | 26 页 | 1.13 MB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
Greenplum 的后续发展,Pivotal 于 2015 年决定将其产品 Greenplum Database 开源。由此产生的最积极结果是 Greenplum Database 社区规模迅速扩大。该社区的成员为核心组件的开发贡献了力量,并且已经受益于 Pivotal 长久以来 在市场上取得的成功。从 2017 年初开始,他们每个月发布一次 Greenplum 更新,使其保有快速而可靠的创新力。 此次推 分发的打包版本将具有相同的内核(只有个别微小差 别)。这是两年来致力于与 PostgreSQL 8.3.23 集成的成果,目的在于扩展和融入以 Greenplum 为中心的生态系统和社 区。为了更好地贴合 PostgreSQL 社区的模式,他们对代码库进行了重构,这样一来,便可以更轻松地从最新版本(未来 的 PostgreSQL 9.X 和 10)中纳入 PostgreSQL 新增功能。 新一代 数据平台 IT 人员 开发 Greenplum Database 可消除平台 / 供应商制约。用户可通过不同供应商获得针对 Greenplum 的服务和支持。 • Greenplum Database 在开发时采用的是以社区 / 客户为焦点的开发模式。客户可通过多种开放可用的方法对总 体产品方向产生影响,而这又会加快产品创新。 客户能够在群集中的一组初始服务器上部署 Pivotal Greenplum,并能在数据存储和用户需求增加时扩充配置中的服务器数0 码力 | 9 页 | 690.33 KB | 1 年前3Greenplum 精粹文集
非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不是有好的组织和社区支持的原因,如果缺乏这方面的有力支持 或独自闭门造轮,那就有理由为那个车的前途感到担忧,一个简单 判断的标准就是看看 Mysql ?(其实, 还有很多开源关系型数据库,但相比这两个主流开源库,实在不在 一个起跑线上)。我们无意去从技术点上PK这两个数据库孰优孰劣, 我相信它们的存在都有各自的特点,它们都有成熟的开源社区做支 持,有各自的庞大的 fans 群众基础。我们认为,Greenplum 选择 Postgressql 有以下考虑: Postgresql 号称最先进的数据库(官方主页“The world’s most 似 乎在这些 OLAP 功能上都比 mysql 更甚一筹。 5) Postgresql 许可是仿照 BSD 许可模式的,没有被大公司控制,社区 比较纯洁,版本和路线控制非常好,基于 Postgresql 可让用户拥有 更多自主性。反观 Mysql 的社区现状和众多分支(如 MariaDB), 确实有些混乱。 Big Date2.indd 5 16-11-22 下午3:38 6 相0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum 6: 混合负载的理想数据平台
Correlated Queries 01 Dynamic Partition Elimination 03 动态分区裁剪 公共表达式的下推 高效处理相关子查询 超过8年的投资,多位博士的长期贡献 基于Cascades / Volcano框架, Goetz Graefe 优化分布式大数据系统中特别复杂的查询 18 Madlib: 迭代并行模型训练 Master model = init(…) 1100ms 300万/s 展望 Greenplum 6.x/7 ■ PostgreSQL合并:BRIN索引和并行扫描 ■ 锁和事务的优化 ■ 磁盘IO的资源管理 ■ 更多思路? 资源 ■ 中文社区:http://greenplum.cn ■ 文档:https://gpdb.docs.pivotal.io/6-0Beta/main/index.html ■ 代码:https://github0 码力 | 52 页 | 4.48 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
Greenplum Database 管理员指南 版本 V6.2.1 2020 年 09 月 27 日 欢迎关注 Greenplum 官方微信公众号和加入官方社区技术讨论群: ©2020 Esena Chen(陈淼 miaochen@mail.ustc.edu.cn) 编者工作十几年,先后供职于民企,国企,外企,截止目前,已从事 多年前,编者翻译了 GP4.2.2 的 AdminGuide,如今,GP 已经历经了无数个版 本更新和迭代,编者也有了更多的感悟,放眼 GP 的中文资料,为之动容,就想着再为 GP 的发展壮大多做那么一点点贡献,挤出一点时间,重新梳理和打磨这个文档,并完 全根据最新的版本特性进行重新整理,希望能对中文爱好者提供一些帮助,在编写过程 中,仍会参考官方文档,但绝不是简单的翻译,甚至有些内容会与官方文档不一致。 应该仅限于:复制表的存在,等于提前把广播做好了,减少了执行计划的复杂度,对于 一些非常小的表,涉及的业务场景追求极致的性能时才考虑,对于通常的分析型场景, 无需考虑复制表。对分布策略要理解透彻,不能过度迷信某一种分布策略,时常在社区 听到有人说,复制表的性能更好,这是一种片面的理解,只能说,在某些特定的情况下, 选择复制分布,会表现出更好的性能。在考虑使用复制表时,请谨记一个衡量标准,复 制表的作用仅仅是提前把广播(Broadcast)做好了,仅仅如此,而已。0 码力 | 416 页 | 6.08 MB | 1 年前3Pivotal Greenplum 5.0 - 开源MPP 数据库的不二之选
• gpload multi-byte delimiters (post GA) • PXF For Hadoop (post GA) 敏捷开发方法学 社区 社区 加入 Pivotal pivotalrnd_china_jobs@pivotal.io 未来计划 - PostgreSQL 9.x0 码力 | 18 页 | 913.39 KB | 1 年前3Greenplum开源MPP数据库介绍
500多付费企业客户 Ø 成千上万的开源用户 Ø 支撑巨大的生产集群: q 250+ servers q 10+ PetaBytes Ø 十几个甚至几十个国内国外的衍生项 目(我们是真开源,欢迎大家贡献) Confidential │ ©2022 VMware, Inc. 6 Greenplum的MPP架构 Ø Massively: q PB级的数据,单台主机无法处理 q 所以数据分布在多个主机上0 码力 | 23 页 | 4.55 MB | 1 年前3Greenplum 编译安装和调试
本文先介绍如何从源代码编译安装Greenplum、初始化Greenplum集群。然后介绍SQL在 Greenplum中的典型执行路径,最后介绍一些调试技巧。 源代码使用 Greenplum 开源社区最新源代码 6X_STABLE 分支: https://github.com/greenplum-db/gpdb,内核代码基于 PostgreSQL 9.4。目前(2019/04/23) 主 干分支的代码基于 gpdb-dev 邮件列表讨论,或者在github上面报告Issues (https://github.com/greenplum-db/gpdb/issues). 欢迎加入 Greenplum 中文社区, https://greenplum.cn/ 主页底部有 QQ 群和微信群联系方式。0 码力 | 15 页 | 2.07 MB | 1 年前3
共 16 条
- 1
- 2