Greenplum 新一代数据管理和数据分析解决方案
采用了针对商用硬件优化的MPP“完 全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近 计算内核 Greenplu m并行数 据流引擎 对本地磁盘进行直 接的高性能访问 gNet 互连 • 第一个支持互联网级分析技术(由Google普及)的产品 • 采用新的编程模型,在商用硬件上并行处理和执行 • 可以使客户洞察力和数据货币化程度达到前所未有的高度 东方航空:航线结算分析 • 民族证券:数据中心,证券投资分析 • 北京第二外语大学:图书分析 • 中信银行:信用卡分析 • 深发展银行:数据中心兼ODS • 李宁公司:销售和库存分析 • 公安部:图像分析 • 国家海洋局:海洋数据采集与分析 • 上海安吉物流:收入&市场分析、客户经理跟踪分析 • 中远集团:收入、发展、销售分析 案例分享(征途游戏) • 现有运行平台 – 服务器平台:SUN0 码力 | 45 页 | 2.07 MB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
ker 容器确保用户代码无法访问源主机的文件系统。此外,容器启动时网络访问受限,无法连接回 Greenplum 数据库或 打开任何其他外部连接。 集成分析:改进后的全新分析接口 一直以来,客户都能在 Greenplum 中做高级分析,无论是提供将应用逻辑向下推送至数据所在位置的方法,执行分 析功能,还是以大规模并行方式构建数据模型,都可以实现。Greenplum 支持适用于数据挖掘和数据科学工作的最 进行机器学习、深度学习和图分析),它支持高并行 和基于 GPU 的深度学习模型训练,内置于集群硬件中的 GPU,能帮助 Greenplum 6 的用户获得超过 CPU 2 个数量 级的性能加速,尤其对于可预测的分析用例和图像识别,这些功能将展现奇效。支持在 Apache Solr 数据库内实施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接 受来自支持的0 码力 | 17 页 | 2.04 MB | 1 年前3Greenplum机器学习⼯具集和案例
载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: PL/X:各种语言实现自定义函数(存储过程) • MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com Greenplum Procedure Language PLPython, PLR 2017.thegiac0 码力 | 58 页 | 1.97 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 11 - 第一章:GP 数据库架构 目前 GP 数据库已经开源多年,多年来一直由 Pivotal 公司商业运营,在 2020 年,Pivotal 被兄弟公司 VMWare 收购,由 VMWare 继续运营。近年来,Greenplum 在国内建立了一个较大规模的研发团队,越来越多的承担更重要的研发任务,包括 GP 的系统表中将被标记 为失败状态,Master 会激活/唤醒对应的 Mirror 取代原有的 Primary。在采取相应 的措施将失败的 Primary 恢复到健康状态之前,该 Primary 一直保持失败状态。失 败的 Primary 可以在系统处于运行状态下被恢复回来。恢复进程仅仅复制失败期间发 生变化的增量差异,当然,如果失败时间太久或者因失败的 Instance 文件有损毁, 将需要全量恢复或者需要选择全量恢复。在 生变化,就会自动同步到 Standby 从而保证与 Master 的一致性,所以,Standby 与 Master 可以保持实时同步。在 6 之前的版本,Master 与 Standby 的同步机制就 一直是 WAL 同步,而在 6 版本开始,Primary 和 Mirror 也采用了 WAL 同步,但由 于 Mirror 需要同步的 WAL 日志的量很大,所以,对性能的影响比 Standby 要显著。0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum 介绍
成为了数据平台的万向头,向上可以连接各种 BI 工具、可视化工具和数据分析工具, 向下可以连接各种 ETL 工具、各种数据源和各种格式的数据等。 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache 顶级项目 MADlib,Greenplum 可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib 提供 SQL0 码力 | 3 页 | 220.42 KB | 1 年前3Greenplum 编译安装和调试
clion 调试器console显示类似 “Debugger attached to process 38965” 的消息,则表示进程 attach成功,可以使用 clion进行调试了。 通过图像化窗口定位到 “ExecProcNode” 函数,通过单击下图的小红圈处,即可设置断点在 ExecAgg() 调用处。 执行 SELECT count(*) FROM students0 码力 | 15 页 | 2.07 MB | 1 年前3Greenplum 排序算法
3. 调整败者树,当我们把最小者输入到输出文件以后,需要从相应的顺串取出 一个记录补上去。补回来的时候,我们就需要调整败者树,我们只需要沿着当前 节点的父亲节点一直比较到顶端。比较的规则是与父亲节点比较,胜者可以参 与更高层的比较,一直向上,直到根节点。失败者留在当前节点。 败者树 28 败者树 1 10 30 44 56 . . . 6 8 34 64 66 . . . 7 11 120 码力 | 52 页 | 2.05 MB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
6 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 集成分析:改进后的全新分析接口 一直以来,客户都能在 Pivotal Greenplum 中做高级分析,无论是提供将应用逻辑向下推送至数据所在位置的方法,执行 分析功能,还是以大规模并行方式构建数据模型,都可以实现。Greenplum 5 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 GPORCA:Pivotal 查询优化器更新 对直到最近,Greenplum 一直采用传统查询优化器 (LQO) 。这是适用于 Greenplum 代码库的原始 PostgreSQL 规划器的衍 生产品。PostgreSQL 规划器最初是为单节点 PostgreSQL 设计的,更适用于0 码力 | 9 页 | 690.33 KB | 1 年前3Greenplum介绍
的primary与 mirror之间是做的逻辑同步,mirror端的数据库实际上 也是可以读写的。而Greenplum4.0版本后,primary与 mirror实际上是物理同步,这时mirror一直处于恢复状 态,不能读也不能写。 高可用之Master Mirroring 对于Greenplum Master的primary与mirror之间的同步 就是使用PostgreSQL的日志同步方案。master的0 码力 | 38 页 | 655.38 KB | 1 年前3Greenplum 精粹文集
样能保证流量均匀的打在多块网卡上,另外注意采用 mode4 绑定的 时候,一定要把交换机设置在 802.3ad 模式下。 2. 主节点服务器 Greenplum 集群是有 master 架构,关于有、无 master 架构业界一直 有所争论。 从功能上而言 master 节点是对外服务的入口,用户所有的请求都必须 先经过 master,所以 master 节点的可用性直接关系到集群的稳定, 但从实践经验来看,由于 master0 码力 | 64 页 | 2.73 MB | 1 年前3
共 10 条
- 1