Greenplum数据仓库UDW - UCloud中立云计算服务商
VARCHAR 或者 TEXT 来保存⽂本类数据。不推荐使⽤ CHAR 类型保存⽂本类型。VARCHAR 或 TEXT 类型对于数据末尾的空⽩字符将原样保存和处理,但是 CHAR 类型不能满⾜ 这个需求。请参考 CREATE TABLE 命令了解更多相关信息。 使⽤ BIGINT 类型存储 INT 或者 SMALLINT 数值会浪费存储空间。如果数据随时间推移需要扩展,并且数据重新加载⽐较浪费时 建议使⽤ TEXT 或者 VARCHAR 类型,不要使⽤ CHAR 类型。TEXT 或者 VARCHAR 类型能够减少存储空 间。选取合适的数字类型,如 INT 或者 SMALLINT 能满⾜业务需求时,使⽤ BIGINT 会带来磁盘空间的浪费。 2 存储⽅式 存储⽅式 udw 在创建表格的时候提供了堆表和追加表两种存储模式,提供了⾏存储、列存储、外部表的存储⽅式。 2.1 堆表和追加表 堆表和追加表 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 151/206 接⼊第三⽅ 接⼊第三⽅ BI ⼯具 ⼯具 UDW可以接⼊第三⽅商业智能(BI)⼯具来快速实现数据的可视化。第三⽅商业智能(BI)⼯具使⽤标准数据库接⼝连接 UDW 数据仓库,例如:JDBC 和 ODBC。 ⽬前经过测试的有:Zeppelin 和 SuperSet。 ⼀、 ⼀、 UDW 接⼊ 接⼊ Zeppelin0 码力 | 206 页 | 5.35 MB | 1 年前3Greenplum on Kubernetes 容器化MPP数据库
● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 → 半结构化/无模式 ○ 数据隔离 → 数据共享 ● 云数据库市场巨大 ● 云数据库增速巨大 ● DBasS的需求 ● 跨云的需求 云数据库实现方案 云数据库需求 ● DBasS ○ 自动化运维 ○ 自动化调优 ● 弹性资源管理 ○ Node节点上Master/Segment节点自动修复 Kubernetes 生态集成 ● 日志收集 ○ Fluentd ● 监控及Metrics收集 ○ Prometheus ● 可视化 ○ Grafana ● …... 总结 Greenplum → Kubernetes Native Database0 码力 | 33 页 | 1.93 MB | 1 年前3Greenplum 介绍
PL/Java、PL/Perl、PL/PGSQL 和 C 等。 ● 支持标准的平台:支持 SQL、JDBC 和 ODBC 等行业标准。经过半个多世纪的发展, SQL 成为了数据平台的万向头,向上可以连接各种 BI 工具、可视化工具和数据分析工具, 向下可以连接各种 ETL 工具、各种数据源和各种格式的数据等。 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal s、SAS、Talend、Qlik、Tableau、Anaconda、 Microstrategy、Boundless、Zattset、Datometry 等,涵盖 ETL、商业智能、高级分析、可视化、 集成分析、GIS 数据处理、迁移、安全和管理等各个领域。 更多信息请访问 greenplum.cn。0 码力 | 3 页 | 220.42 KB | 1 年前3Greenplum机器学习⼯具集和案例
使⽤用可视化⼯工具对 结果进⾏行行更更好地呈 现 背景 2017.thegiac.com 数据源 • 数据 - API 访问⽇日志 - 客户数据 • 45 天区域数据 • 50亿条数据 • 上百万订购者 平台 建模⼯工具 PL/R, PL/PYTHON, PDLTools 可视化 数据和技术概览0 码力 | 58 页 | 1.97 MB | 1 年前3Greenplum开源MPP数据库介绍
Confidential │ ©2022 VMware, Inc. 19 GPCC Greenplum Command Center Ø Web UI 监控和管理 Ø 实时性能监控 Ø 可视化计划 Ø 基于规则的任务管理 Ø 向客户推荐性能优化操作 Ø 报警和通知 Confidential │ ©2022 VMware, Inc. 20 Greenplum Streaming Server0 码力 | 23 页 | 4.55 MB | 1 年前3并行不悖- OLAP 在互联网公司的实践与思考
• 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 load,copy Ø 数据同步结果确认与显示 • 数据同步方式 Ø gpfdist+外部表 : UMGW大表 Ø db_sync同步程序 : 底层库 + 同步逻辑 + Django界面 Ø 临时同步需求: datax , copy 29 Greenplum运维体系 数据库数据传输与同步-db_sync 30 Greenplum运维体系 数据库数据传输与同步-db_sync 31 Greenplum运维体系 整体扩展思路 • OLAP三大模块不断完善 Ø 通过dbsync程序,实现数据传输和加载优化 Ø 对于Greenplum上的架构和设计不断优化 Ø 继续建设多样化的postgresql数据集市,满足不同需求 • 优化现有业务的调度实现 Ø 时间周期的考量 Ø 并发与功能实现的权衡 Ø 增强任务可控性和可度量性 • 支持符合条件的新业务 Ø 抽象业务模型,整合使用分类 Ø 简化上线模型,优化上线方式0 码力 | 43 页 | 9.66 MB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查 询优化器。GPORCA 专为满足在多结构数据环境中进行高级分析的需求而设计,能够处理多种并发混合工作负载的复杂查 询。与旧式 MPP 数据库中常用的传统 RDBMS 查询优化器相比,GPORCA 大幅度地提高了查询性能。 Pivotal Greenplum 5:新一代数据平台 更新,使其保有快速而可靠的创新力。 此次推 出的 Greenplum 5 是一个功能齐全、动态的、创新型分析数据平台,其产品路线图规划健全且充满活力,无论是短期内还 是未来长期时间里,都能满足客户的需求。 支持多种云不受限于基础架构的数据平台 Pivotal Greenplum 5 是首个内核百分百基于 Greenplum Database 开源项目及其相关源代码的版本。这意味着,可以通 过 greenplum Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 作为能够独立于专用硬件加速提供高性能的纯软件数据平台,Greenplum 可根据客户需求在任何位置运行。借助这种“不 受限于基础架构”的方法,可以在本地或多云环境(私有云或公有云)中部署同一类型的分析数据库。 无论在商业化的 Pivotal Greenplum 或是开源的 Greenplum0 码力 | 9 页 | 690.33 KB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
统平台架构、创新性及核心特点, 同时介绍了 Greenplum 作为一款深受技术爱好者喜爱的、中立的纯开源软件,践行 “Run Everywhere”原则,用全新的HTAP核心设计满足实时处理业务需求。在此也为所有为Greenplum on openEuler 成功测试运行所做努力贡献的人员表示感谢! 摘要 Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数 HTAP 特性,具备良好性能、可靠性和稳定性,使得 Greenplum 不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 Greenplum Greenplum 更新,使其保有快速而可靠的创新力。Greenplum 是一 个功能齐全、动态的、创新型分析数据平台,其产品路线图规划健全且充满活力,无论是短期内还是未来长期时间里, 都能满足客户的需求。 支持多种云不受限于基础架构的数据平台 Greenplum 自从开源以来,可以通过 cn.greenplum.org 网站下载和编译的版本与商业版将具有相同的内核(只有 个别微小差别),这是近年来致力于扩展和融入以0 码力 | 17 页 | 2.04 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
编者工作十几年,先后供职于民企,国企,外企,截止目前,已从事 Greenplum 技术工作 10 余年,10 余年来,专注在 Greenplum 和相关技术领域,主要工作职责是 售后支持,帮助我们的 Greenplum 用户解决生产需求和技术问题,我们坚持提供最专 业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 POC 测试,有开发支持,有故障支持,有 长期驻场 16 - 如下图所示,这是一种混合配对镜像模式,将一群数量为偶数的机器,分为两组, 每台机器的镜像分散在对面组的机器上。关于如何选择镜像模式,以及如何分散镜像关 系,可以根据用户的实际需求进行评估和实施。 目前,编者的一键式集群配置安装初始化命令已经内置了两种镜像模式,分别为 RING 和 PAIR。RING 是一种带有环状关系的镜像模式,典型的特征是,一组机器形成 属性来配置,MEMORY_LIMIT 属性的最小取值为 0,最大取值为 100。 当设置 MEMORY_LIMIT 为 0 时,GP 将不会为该资源组配置专享内存,而是使用全局 共享内存来满足该资源组中的内存需求。可以参见"全局共享内存"章节。 注意:GP 数据库中所有资源组的 MEMORY_LIMIT 总和,不能超过 100. 基于 ROLE 的内存配额的更多配置 对于基于0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum 精粹文集
传统的主机计算模式在海量数据面前,除了造价昂贵外,在技术上也 难于满足数据计算性能指标,传统主机的 Scale-up 模式遇到了瓶颈, SMP(对称多处理)架构难于扩展,并且在 CPU 计算和 IO 吞吐上不 能满足海量数据的计算需求。 分布式存储和分布式计算理论刚刚被提出来,Google 的两篇著名论文 发表后引起业界的关注,一篇是关于 GFS 分布式文件系统,另外一篇 是关于 MapReduce 并行计算框架的理论,分布式计算模式在互联网 信越来越多组织和个人会成为 Greenplum 的 Contributor 贡献者,随 着社区的发展将推动 GreenplumMPP 数据库走向新的高速发展旅程。 (分享一下开源的直接好处,最近我们某用户的一个特殊需求,加载 数据中有回车等特殊字符,我们下载了 GP 外部表 gpfdist 源代码,不 到一天就轻松搞定问题) Greenplum 也正在积极的拥抱云计算,Cloud Foundry 的 PaaS 云平 Date2.indd 28 16-11-22 下午3:38 Greenplum 精粹文集 29 四、Greenplum 实施经验谈 近两年,国内的大数据市场逐渐成熟,有真实的大数据处理需求的企 业数量呈现爆炸性的增长,从传统的数据库产品往 MPP 数据库转型 的增长势头十分迅猛。Greenplum 作为 MPP 产品的领头羊,具有较 低的学习成本,只要学习过 SQL,懂数据库的应用开发,学会使用0 码力 | 64 页 | 2.73 MB | 1 年前3
共 14 条
- 1
- 2