Greenplum 精粹文集
Greenplum 精粹文集 1 一、Greenplum 的前生今世 1. Greenplum 的起源 Greenplum 最早是在 10 多年前(大约在 2002 年)出现,基本上 和 Hadoop 是同一时期(Hadoop 约是 2004 年前后出现的,早期的 Nutch 可追溯到 2002 年)。 互联网行业经过之前近 10 年的由慢到快的发展,累积了大量信息和数 据,数据在爆发式增长,这些海量数据急需新的计算方式,需要一场 还研发了非常多的高级数据分析管理功能和企业级管理模 块,如下这些功能都是 Postgresql 没有提供的: ·外部表并行数据加载 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 索引 ·Hadoop 外部表 ·Gptext 全文检索 ·并行查询计划优化器和 Orca 优化器 ·Primary/Mirror 镜像保护机制 ·资源队列管理 ·WEB/Brower 监控 Big Date2 机制进行保证)。 再进一步看,Master-Slave 架构在业界的大数据分布式计算和云计 算体系中被广泛应用,大家可以看到,现在主流分布式系统都是采 用 Master-Slave 架 构, 包 括:Hadoop FS、Hbase、MapReduce、 Storm、Mesos...... 无一例外都是 Master-Slave 架构。相反,采用 MultipleActive Master 的软件系统,需要消耗更多资源和机制来保证0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum 介绍
从而允许客户灵活选择最适合的方案,降低未来的迁移代价,而开发、运维人员无需要学 习新的数据库处理技术,人力成本也能够大大降低。 ● 处理和分析各种数据源的数据的平台:支持各种数据源,包括 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结 ● 开放源代码且持续大力投入的平台: 2017 年 Pivotal 在 github 的开源贡献列表中全球排 名第四左右。 采用开源方案,不担心后门问题,不担心被锁定。开源还可以构建更好的 生态。 ● 采用敏捷软件开发方法开发的平台:Greenplum 采用敏捷方法开发,实现了快速迭代、持 续发布和质量内建。2017 年 Greenplum 发布了 10 个版本,以前发布一个版本需要 月左右,现在只需要十几个小时。 ● 具备企业级稳定性的平台:Greenplum 经过十多年发展,有大量活跃客户,大量数百节点 集群为全球 2000 强企业生产系统提供服务,稳定性非常高。 ● 具备成熟生态系统的平台:Greenplum 生态非常完善,有大量的合作伙伴。 发展历程 Greenplum 公司成立于 2003 年,2008 年发布 Greenplum 数据库产品。2010 年 Greenplum0 码力 | 3 页 | 220.42 KB | 1 年前3Pivotal Greenplum 5.0 - 开源MPP 数据库的不二之选
MPP 数据库的不二之选: Pivotal Greenplum 5.0 姚延栋 yyao@pivotal.io 开放源代码 SQL 企业级数据库 生态系统 MPP 高速数据加载 多态存储 表‘SALES’ 列存储 行存储 1月 一年前 二年前 外部表 12月 11月 4月 Targets) (post GA) • Recursive CTEs (post GA) • gpload multi-byte delimiters (post GA) • PXF For Hadoop (post GA) 敏捷开发方法学 社区 社区 加入 Pivotal pivotalrnd_china_jobs@pivotal0 码力 | 18 页 | 913.39 KB | 1 年前3Greenplum数据库架构分析及5.x新功能分享
分布式数据库:线性扩展,支持上百物理节点 企业级数据库:全球大客户超过 1000+ 安装集群 百万行源代码,超过10年的全球研发投入 开源数据库(greenplum.org),良性生态系统 5 Pivotal Confidential–Inter nal Use Only 5 © Copyright 2013 Pivotal. All rights reserved. Greenplum 10+ TB/小时/Rack – 线性扩展 • 低延迟 – 加载后立刻可用 – 不需要中间存储 – 不需要额外数据处理 • 导入/导出 到&从: – 文件系统 – 任意 ETL 产品 – Hadoop 发行版 外部数据源 Interconnect ... ... ... ... 主节点 查询优化和调度 数据节点 存储数据 & 查询处 理 SQL ETL File Systems0 码力 | 44 页 | 8.35 MB | 1 年前3Greenplum机器学习⼯具集和案例
Compatibility (Hyper-Q) 2017.thegiac.com Greenplum ⼤大数据平台 • 一次打包,到处运行:裸机、私有云、公有云 • 各种数据源:Hadoop、S3、数据库、文件、Spark、Ka,a • 各种数据格式:结构化、半结构化(JSON/XML/Hstore)、非结构化 • 强大内核: MPP、优化器、多态存储、灵活分区、高速加载、PG内核 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) • MADLib:0 码力 | 58 页 | 1.97 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
等外部数据,具体使⽤可以查询对应版本的 GreenPlum PXF 官 ⽅⽂档。 使⽤ PXF 服务访问外部数据时,需要进⾏⼀些有关外部数据的配置,我们在控制台提供了配置上传的功能。如果需要访问 Hadoop 相关的外部数据,必须上传对应 Hadoop 集群的 core- site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml 配置⽂件,如果还需要额外访问 Hive Hive 或者 HBase 数据,则需要上传 hive-site.xml 或者 hbase-site.xml 配置⽂件。 因为配置⽂件中⼀般以域名/主机名表⽰各节点的访问地址,所以还需要额外上传包含 Hadoop 集群各节点的域名/主机名与 IP 对应关系的 hosts ⽂件,我们会将这个⽂件中的内容添加 到 Udw 集群的 hosts ⽂件当中。(请尽量确保上传的 hosts ⽂件只包含集群各节点的 服务使配置⽣效,控制台上提供了 PXF 服务的 停⽌/开启/重启 等操作功能。 配置 配置 PXF 服务 服务 在控制台 PXF 配置⻚⾯,有对应的⽂件列表与上传功能,点击 上传 并选择对应的 Hadoop 集群配置⽂件或者 hosts ⽂件,进⾏配置上传。 配置上传完成后,点击 重启 按钮让配置⽣效。 PXF 扩展 Greenplum数据仓库 UDW Copyright © 2012-20210 码力 | 206 页 | 5.35 MB | 1 年前3VMware Greenplum 6 Documentation
Command Center 293 Hardware Requirements 293 VMware Greenplum on DCA Systems 293 Storage 293 Hadoop Distributions 294 VMware vSphere Requirements 294 Public Cloud Requirements 295 Operating System Broadcom 24 About Endpoint Security Software 504 Securing the Database 504 Accessing a Kerberized Hadoop Cluster 504 Platform Hardening 505 Greenplum Database Ports and Protocols 505 Configuring Client instances 637 Example 4—Single gpfdist instance with error logging 637 Example 5—TEXT Format on a Hadoop Distributed File Server 638 Example 6—Multiple files in CSV format with header rows 638 Example0 码力 | 2445 页 | 18.05 MB | 1 年前3VMware Greenplum 6 Documentation
260 Extensions 261 Data Connectors 261 VMware Greenplum Text 262 Greenplum Command Center 263 Hadoop Distributions 263 Public Cloud Requirements 263 Operating System 263 Storage 263 Security 264 Greenplum Database Security Configuration Guide 498 Securing the Database 499 Accessing a Kerberized Hadoop Cluster 499 Platform Hardening 499 Greenplum Database Ports and Protocols 499 Configuring Client instances 631 Example 4—Single gpfdist instance with error logging 631 Example 5—TEXT Format on a Hadoop Distributed File Server 632 Example 6—Multiple files in CSV format with header rows 632 Example0 码力 | 2374 页 | 44.90 MB | 1 年前3VMware Greenplum v6.25 Documentation
278 Extensions 279 Data Connectors 279 VMware Greenplum Text 281 Greenplum Command Center 281 Hadoop Distributions 281 Public Cloud Requirements 281 Operating System 281 Storage 282 Security 282 Greenplum Database Security Configuration Guide 474 Securing the Database 475 Accessing a Kerberized Hadoop Cluster 475 Platform Hardening 475 Greenplum Database Ports and Protocols 476 Configuring Client instances 608 Example 4—Single gpfdist instance with error logging 608 Example 5—TEXT Format on a Hadoop Distributed File Server 609 Example 6—Multiple files in CSV format with header rows 609 Example0 码力 | 2400 页 | 18.02 MB | 1 年前3VMware Tanzu Greenplum v6.21 Documentation
226 Extensions 226 Data Connectors 227 Tanzu Greenplum Text 228 Greenplum Command Center 228 Hadoop Distributions 228 Greenplum Database Cloud Technical Recommendations 228 Operating System 228 Greenplum Database Security Configuration Guide 404 Securing the Database 404 Accessing a Kerberized Hadoop Cluster 405 Platform Hardening 405 Greenplum Database Ports and Protocols 405 Configuring Client instances 518 Example 4—Single gpfdist instance with error logging 519 Example 5—TEXT Format on a Hadoop Distributed File Server 519 Example 6—Multiple files in CSV format with header rows 520 Example0 码力 | 2025 页 | 33.54 MB | 1 年前3
共 27 条
- 1
- 2
- 3