快乐的程序员 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum 6: 混合负载的理想数据平台

Greenplum 6: 混合负载的理想数据平台高小明全球领先的开源MPP大数据平台可扩展性 ACID事务 VS 分布式简单易用 VS 结构化半结构非结构化 VS 事务型分析型 VS MPP - massively parallel processing - 大规模并行处理 master standby primary primary segment mirror segment 6 Pivotal Confidential–Internal Use Only 数据分布: 并行化的根基最重要的策略和目标是均匀分布数据到各个数据节点。 43 Oct 20 2005 12 64 Oct 20 2005 111 45 Oct 20 2005 42 46 Oct 20 2005 64 77 Oct 20 2005 32 48 here as an MPP relational database are well-showcased 12 Pivotal Confidential–Internal Use Only 卓越的OLAP特性列式存储分区、压缩高级特性递归查询、窗口函数集成分析多格式、多语言 Madlib: 机器学习数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器成熟稳定

0 码力 | 52 页 | 4.48 MB | 1 年前
3
Brin Index主Greenplum 7中的理论与实现

VMware, Inc. Brin Index 在Greenplum 7中的理论与实践陈金豹，VMWare内核工程师 Confidential │ ©2021 VMware, Inc. 目录 Brin Index On Heap AppendOnly Table Brin在AppendOnly Table上的实现性能测试 5 Confidential │ ©2021 Inc. Block Range Index 存储数据块中元组字段的最大最小值，用于过滤不符合条件的数据块 1 3 2 5 7 8 8 10 9 11 11 12 [1, 5] [7, 10] [9, 12] Brin Heap Confidential │ ©2021 VMware, Inc. Brin的优势和劣势优势：占用空间小创建快劣势：只有在数据具有一定分布特点时才有用 Inc. Brin的体积 Brin tuple: 20bytes Block Range: 8K * 20 = 160K Brin比Heap小8000倍 1 TB的Heap表只需要125M的Brin [1, 5] [7, 10] [9, 12] Brin Block Rang Confidential │ ©2021 VMware, Inc. Brin的选择率 BlockNum:

0 码力 | 32 页 | 1.04 MB | 1 年前
3
Pivotal Greenplum 5.0 - 开源MPP 数据库的不二之选

开源 MPP 数据库的不二之选: Pivotal Greenplum 5.0 姚延栋 yyao@pivotal.io 开放源代码 SQL 企业级数据库生态系统 MPP 高速数据加载多态存储表‘SALES’ 列存储行存储 1月一年前二年前外部表 12月 11月 4月

0 码力 | 18 页 | 913.39 KB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

白皮书开源 Greenplum 新篇章：兼容欧拉开源操作系统的数据平台支持国产生态的高级分析数据平台作者：Greenplum 中文社区、欧拉开源社区完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 ............................................................................ 5 openEuler 面向多样性算计算的创新 ................................................................................................. ............................................................................................ 8 完善的生态工具链 ..............................................................................................

0 码力 | 17 页 | 2.04 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

在互联网公司的实践与思考赵飞祥 2 Greenplum现状说明三 Greenplum体系架构二数据仓库体系架构一 Greenplum开发规范五 Greenplum运维体系四 Greenplum扩展规划六 3 数据仓库体系架构业务数据与数据使用归类时间维度：过去 - 现在 - 未来（数据的生命周期） • “现在”的数据 —— OLTP • “过去”的数据 —— —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构业务数据与数据特点 • 现在的数据 —— OLTP Ø实时，在线系统，客户使用 Ø事务小，频率高，并发高 • 过去的数据 —— OLAP Ø非实时（T+1，或小时级），离线系统，分析决策 Ø事务大，频率相对小，并发低 • 未来的数据 —— 趋势分析 Ø非实时，离线+在线流系统，趋势分析 Ø算法分析，持续计算 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP，趋势分析 • 8

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥，加利福尼亚州，美国，成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 2010/4/8 官方网站： www.greenplum.com www.greenplum-china.com Greenplum：简介 Greenplum数据引擎软件为新一代数据仓库所需的大规模数据和复杂查询功据仓库所需的大规模数据和复杂查询功能所设计 3 推动数据依赖型企业的发展全球各地的一些Greenplum客户 4 亚太地区欧洲、中东、非洲北美中国的客户 5 金融交通互联网其它 Teradata Netezza Oracle Greenplum Neoview Vertica Paraccel Aster Data Hadoop Current Database Vendor Landscape 用户人数 • 安全度 • 查询、报告、分析的数量 • 数据的高度多样性 • 大量定制数据 • 监管要求商务智能/数据仓库发展趋势一切都在增长! 数据仓库工作量：数据膨胀面临的新难题是如何处理大规模数据过去的10年现在 HPC 企业 SME 万亿字节千兆字节兆字节千万亿字节万亿字节千兆字节行业商务智能解决方案的实例政府电信金融服务公民服务

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

和相关技术领域，主要工作职责是售后支持，帮助我们的 Greenplum 用户解决生产需求和技术问题，我们坚持提供最专业的建议和解决方案，提供最专业的技术支持服务，提供最专业的落地实施支持。十多年来，参与过的项目不计其数，有 POC 测试，有开发支持，有故障支持，有长期驻场支持，有临时的功能支持，甚至可能会作为用户看不见的后端支持，总之，我们的目标是，努力解决用户的一切不违背自然规律的诉求，我们跟随着 Greenplum Greenplum 的成长，见证了 Greenplum 从闭源到开源的成长历程，一路给 Greenplum 做各种补丁脚本，也看到了 Greenplum 的大幅进步，甚至我们以前的小技巧也不再需要，持续的进步，带来的是生态的蓬勃发展。 Greenplum Database 管理员指南 V6.2.1 版权所有：Esena(陈淼 +86 18616691889) 编写：陈淼 - 2 - ： GP 的控制节点/实例 Standby ： GP 的备用控制节点/实例 Host(主机) ： GP 的一台独立的机器设备 Instance ： GP 的计算实例，很多时候也叫 Segment Primary ： GP 的主计算实例 Mirror ： GP 的镜像计算实例 MPP ：大规模并行处理算子：执行计划中的运算操作

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 精粹文集

一、Greenplum 的前生今世 1. Greenplum 的起源 Greenplum 最早是在 10 多年前（大约在 2002 年）出现，基本上和 Hadoop 是同一时期（Hadoop 约是 2004 年前后出现的，早期的 Nutch 可追溯到 2002 年）。互联网行业经过之前近 10 年的由慢到快的发展，累积了大量信息和数据，数据在爆发式增长，这些海量数据急需新的计算方式，需要一场计算方式的革命。传统的主机计算模式在海量数据面前，除了造价昂贵外，在技术上也难于满足数据计算性能指标，传统主机的 Scale-up 模式遇到了瓶颈， SMP（对称多处理）架构难于扩展，并且在 CPU 计算和 IO 吞吐上不能满足海量数据的计算需求。分布式存储和分布式计算理论刚刚被提出来，Google 的两篇著名论文发表后引起业界的关注，一篇是关于 GFS 分布式文件系统，另外一篇是关于 MapReduce 并行计算框架的理论，分布式计算模式在互联网行业特别是收索引擎和分词检索等方面获得了巨大成功。 Big Date2.indd 1 16-11-22 下午3:38 2 由此，业界认识到对于海量数据需要一种新的计算模式来支持，这种模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。当时，开放的X86服务器技术已经能很好的支持商用，借助高速网络（当时是千兆以太网）组建的

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

75 76 76 79 81 82 90 92 101 102 103 104 106 128 访问访问UDW数据仓库数据仓库 1 客⼾端⼯具访问UDW 2 图形界⾯的⽅式访问UDW 数据导⼊数据导⼊ insert加载数据 copy加载数据外部表并⾏加载数据从hdfs加载数据从mysql中导⼊数据从oracle中导⼊数据从ufile加载数据 139 139 139 141 142 146 152 152 163 177 177 183 190 190 191 192 udw优化指南表膨胀表膨胀表膨胀的原因如何避免表膨胀 UDW中中Json类型类型 Json相关操作 Json操作举例 Json相关函数 Json创建函数 Json处理函数接⼊第三⽅接⼊第三⽅ BI ⼯具⼯具 greenplum 集群表数据写⼊ hdfs 3. 在⽬的 greenplum 集群中创建 hdfs pxf 可读表 4. 从 hdfs 外部表中读取数据并写⼊⽬的 greenplum 集群 FAQs 创建好数据仓库之后怎么连接到UDW？ UDW⽀持从mysql导⼊数据吗？ HDFS/Hive与UDW之间可以导⼊导出数据吗？ UDW中怎么kill掉正在执⾏的SQL语句？如何通过外⽹访问UDW？

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Pivotal Greenplum 5：新一代数据平台

白皮书 Pivotal Greenplum 5：新一代数据平台开源、支持多种云的高级分析数据平台作者：Keaton Adams、 Dan Baskette、 Cesar Rojas pivotal.io/cn 白皮书 2 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5：新一代数据平台目录 .. 4 支持多种云不受限于基础架构的数据平台 ............................................................................................................................................... 4 集成分析：改进后的全新分析接口 ............ 最近推出全球第一个开源、支持多云的高级分析数据平台——Pivotal Greenplum 5。本白皮书着眼介绍 Greenplum 5 的核心特征，及多年来围绕该平台发展出的生态系统。摘要 Pivotal Greenplum 不受限于基础架构，这意味着它是一种可完全移植的分析数据库软件解决方案，可部署在多云环境（公有云和私有云）中，也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为

0 码力 | 9 页 | 690.33 KB | 1 年前
3

共 30 条前往

页

分类

语言

格式