完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
白皮书 开源 Greenplum 新篇章: 兼容欧拉开源操作系统的数据平台 支持国产生态的高级分析数据平台 作者:Greenplum 中文社区、 欧拉开源社区 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 ........................................................................................ 4 欧拉开源操作系统 .................................................................................................. ........................................................................................ 6 欧拉开源操作系统平台架构 ..............................................................................................0 码力 | 17 页 | 2.04 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
序言 术语约定 GP : Greenplum 数据库 Master : GP 的控制节点/实例 Standby : GP 的备用控制节点/实例 Host(主机) : GP 的一台独立的机器设备 Instance : GP 的计算实例,很多时候也叫 Segment Primary : GP 的主计算实例 Mirror : GP 的镜像计算实例 .......................................................................................... - 95 - 系统模式 ................................................................................................ ..................................................................................... - 269 - 安装操作系统 ..................................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum数据库架构分析及5.x新功能分享
分布式数据库:线性扩展,支持上百物理节点 企业级数据库:全球大客户超过 1000+ 安装集群 百万行源代码,超过10年的全球研发投入 开源数据库(greenplum.org),良性生态系统 5 Pivotal Confidential–Inter nal Use Only 5 © Copyright 2013 Pivotal. All rights reserved. Greenplum 多级容错机制 无共享大规模并行处理 先进的查询优化器 多态存储系统 客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 MPP Scatter/Gather 流处理 在线系统扩展 任务管理 服务 加载 & 数据联邦 高速数据加载 近实时数据加载 任意系统数据访问 存储 & 数据访问 混合存储引擎(行存&列存) 支持高效更新和删除 AO 主要为插入而优化 表‘SALES’ 11月 列存储 行存储 7月 一年前 二年前 外部表 历史数据和不常访问的数 据存储在 HDFS 或者其他 外部系统中 无缝查询所有数据 Text, CSV, Binary, Avro, Parquet 格式 6月 5月 10月 9月 8月 用户自定义数据存储格式 14 Pivotal Confidential–Inter0 码力 | 44 页 | 8.35 MB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
Pivotal 最近推出全球第一个开源、支持多云的高级分析数据平台——Pivotal Greenplum 5。本白皮书着眼介绍 Greenplum 5 的核心特征,及多年来围绕该平台发展出的生态系统。 摘要 Pivotal Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在多云环境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 Pivotal Network 分发的打包版本将具有相同的内核(只有个别微小差 别)。这是两年来致力于与 PostgreSQL 8.3.23 集成的成果,目的在于扩展和融入以 Greenplum 为中心的生态系统和社 区。为了更好地贴合 PostgreSQL 社区的模式,他们对代码库进行了重构,这样一来,便可以更轻松地从最新版本(未来 的 PostgreSQL 9.X 和 10)中纳入 PostgreSQL Pivotal Greenplum 或是开源的 Greenplum Database 中,这种不受限于基础架构的方法的大部分优势都 具有同样强大的作用。在 Greenplum Database 上部署分析系统时,用户还可获得一些额外的优势: • Greenplum Database 可消除平台 / 供应商制约。用户可通过不同供应商获得针对 Greenplum 的服务和支持。 • Greenplum0 码力 | 9 页 | 690.33 KB | 1 年前3Greenplum 6: 混合负载的理想数据平台
分区、压缩 高级特性 递归查询、窗口函数 集成分析 多格式、多语言 Madlib: 机器学习 数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器 成熟稳定 完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only 列式存储 表‘SALES’ 表‘SALES’ ■ 更适合压缩 ■ 查询部分列时速度快 ■ 不同列可以使用不同压缩方式 Elimination 03 动态分区裁剪 公共表达式的下推 高效处理相关子查询 超过8年的投资,多位博士的长期贡献 基于Cascades / Volcano框架, Goetz Graefe 优化分布式大数据系统中特别复杂的查询 18 Madlib: 迭代并行模型训练 Master model = init(…) WHILE model not converged model = SELECT processing - 联机事务处理 出色的OLTP特性 天生的优势 ● 行式存储 ● 索引 ● 直接分发 ● 完整的增删改 Greenplum 6 增强 ● 并发修改、删除 ● 系统性的优化事务和锁 26 Pivotal Confidential–Internal Use Only 行式存储 表‘SALES’ 表‘SALES’ ■ 更适合OLTP负载 ■ 高效更改和删除0 码力 | 52 页 | 4.48 MB | 1 年前3Greenplum 精粹文集
计算方式的革命。 传统的主机计算模式在海量数据面前,除了造价昂贵外,在技术上也 难于满足数据计算性能指标,传统主机的 Scale-up 模式遇到了瓶颈, SMP(对称多处理)架构难于扩展,并且在 CPU 计算和 IO 吞吐上不 能满足海量数据的计算需求。 分布式存储和分布式计算理论刚刚被提出来,Google 的两篇著名论文 发表后引起业界的关注,一篇是关于 GFS 分布式文件系统,另外一篇 是关于 MapReduce 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 问 题 来 了, 在 X86 集 群 上 实 现 自 动 的 并 行 计 算, 无 论 是 后 来 的 MapReduce 计算框架还是 MPP(海量并行处理)计算框架,最终还 google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Post0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum 编译安装和调试
Greenplum 目前官方支持 Redhat/Centos/SuSE/Ubuntu 等Linux系统。大量开发人员包括我自己 使用Mac系统,但是不在官方支持列表中。 1.1 在 Mac 系统上编译 首先需要关闭苹果操作系统的 SIP 特性,否则无法初始化集群。 1. 重启操作系统 2. 重启过程中按下 command+R 进入恢复模式 3. 从 Utilities 菜单选择 菜单选择 Terminal 4. 执行 csrutil disable 5. 重启操作系统 // 安装Greenplum管理脚本依赖的 Python 包 $ wget https://bootstrap.pypa.io/get-pip.py $ sudo python get-pip.py $ sudo pip install psutil lockfile paramiko setuptools --disable-gpcloud \ --disable-gpfdist --prefix=$HOME/gpdb.master $ make [-j4] $ make install 在苹果系统上初始化Greenplum单节点集群时,需要做些准备工作: ● 添加export PGHOST=localhost至~/.bash_profile ● 将本机的hostname与1270 码力 | 15 页 | 2.07 MB | 1 年前3PostgreSQL和Greenplum 数据库故障排查
10.10.56.17/32 md5 host 参数表示安装PostgreSQL的主机 all 第一个all 表示该主机上的所有数据库实例 all 第二个all 表示所有用户 10.10.56.17/32 表示需要连接到主机的IP地址,32表示IPV4 md5 表示验证方式 2018年PostgreSQL中国技术大会 连接方式(type) 多个用户以逗号分隔。 允许的客户端(ADDRESS) 格式为ip-address/mask 采用local连接方式不必填写,该项可以是IPv4地址或IPv6地址,可以定义某 台主机或某个网段。 认证方法(METHOD) METHOD指定如何处理客户端的认证。常用的有ident,md5,password, trust,reject。 ident i ident 认证失败”的错误,明明数据库用户已经createuser。 原因就在于此,使用了ident认证方式,却没有同名的操作系统用户或没 有相应的映射用户。 md5 密码是以md5形式传送给数据库,较安全,且不需建立同名的操作系统用 户。 password password是以明文密码传送给数据库,建议不要在生产环境中使用。 trust0 码力 | 84 页 | 12.61 MB | 1 年前3Greenplum开源MPP数据库介绍
目(我们是真开源,欢迎大家贡献) Confidential │ ©2022 VMware, Inc. 6 Greenplum的MPP架构 Ø Massively: q PB级的数据,单台主机无法处理 q 所以数据分布在多个主机上 q 高效、灵活的数据分布,和实际业务相关 Ø Parallel: q 数据并行处理计算 q 通过网络进行数据交换和汇总 Confidential │ ©2022 VMware replication) Ø 自动灾难恢复 (FTS,主备切换) Confidential │ ©2022 VMware, Inc. 9 分布式优化器:OLAP Ø OLTP系统的SQL语句相对简单(CURD) Ø OLAP系统的SQL语句就复杂得多(OLTP则尽量避免) q Join 很复杂(多表, outer join, lateral…) q 子查询、子链接 q 聚集 (grouping enplum-venky-raghavan/ Confidential │ ©2022 VMware, Inc. 11 Greenplum的一些概念 Ø MPP、分布式系统最重要的点是什么? Ø 一个整体的分布式系统,和中间件的区别在哪? Ø Motion q 跨节点的数据交换 q Gather汇集 (n:1), Broadcast广播 (n:n), Redistribute重分布 (n:n)0 码力 | 23 页 | 4.55 MB | 1 年前3深度揭秘Greenplum开源数据库透明加密
• 缺少对硬件和系统的控制 潜在风险(一) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 需要登录到系统进行运维 • 可以访问数据库二进制文件 • 可以访问数据库数据文件 • 可以访问预写日志文件 潜在风险(二) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 运维模式 • 原厂服务,主机厂或者第三方运维 GPDB的数据安全 数据需要加密 • 机密数据 • 知识产权保护 • 审计要求 用户数据存在直接暴露的风险 • 非部门员工运维(原厂,主机厂或者合作伙伴) • 事后审计难度很大 • 服务器数据被盗(托管或云部署) 用户的问题 现有解决方案 基于操作的系统的硬盘加密 • 只能防范服务器硬盘被盗 • 对运维安全无能为力 基于pgcypto的加密 • 可以满足数据安全要求 • 非原生方案 (Encrypted) Major key (Decrypted) Cached Data (Encrypted) Object key (Encrypted) Data (Encrypted) 系统域认证+二进制文件证书认证 工作流程 GPDB透明加密解析 KMS Master key Disk Memory Major key (Encrypted) Disk Memory/Client0 码力 | 48 页 | 10.19 MB | 1 年前3
共 24 条
- 1
- 2
- 3