Greenplum 精粹文集
横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 问 题 来 了, 在 X86 集 群 上 实 现 自 动 的 并 行 计 算, 无 论 是 后 来 的 MapReduce 计算框架还是 MPP(海量并行处理)计算框架,最终还 对比测试时,发现其优点是 OLTP 非常快,TPS 非常高(轻松搞定 几十万),但一到复杂多表关联性能就立马下降,即使其具有内存 计算的功能也无能为力,就其因估计还是受到 mysql 在这方面限制。 3) 扩展性方面,Postgresql 比 mysql 也要出色许多,Postgres 天生就 是 为 扩 展 而 生 的, 你 可 以 在 PG 中 用 Python、C、Perl、TCL、 PLSQL 等等 个多小时就成功完成了,其它厂商大都没有完成此项测试,唯一完成 的一家耗时 40 多小时)。 Big Date2.indd 9 16-11-22 下午3:38 10 前文提到,得益于 Postgresql 的良好扩展性(这里是 extension,不 是 scalability),Greenplum 可以采用各种开发语言来扩展用户自定 义函数(UDF)(我个人是 Python 和 C 的 fans,后续章节与大家分享)。0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum机器学习⼯具集和案例
• k-Nearest Neighbors 成熟的数据科学学习库 2017.thegiac.com • 更好的并行度 • 算法充分利用 MPP 架构实现并行 • 更好的可扩展性 • 算法随着数据扩充而线性扩展 • 更高的预测精准度 • 适用更多数据,而不是抽样 • 顶级 ASF 开源项目 • 社区驱动开发模式 MADlib 特性 2017.thegiac (10K) (100K) (1M) (10M) (100M) Note: log-log scale (100s) (1s) (10K s) (1M s) 可扩展性 – PageRank 性能 2017.thegiac.com MADlib vs. Spark: 不不同的产品,侧重点不不同 MADlib Spark 算法库 易用性0 码力 | 58 页 | 1.97 MB | 1 年前3Greenplum on Kubernetes 容器化MPP数据库
容器化数据库+Kubernetes ○ Apache Spark ○ CockroachDB ○ Apache HAWQ 云数据库存储方案 ● 块存储 ○ 文件系统接口 ● 对象存储 ○ 成本低 ○ 扩展性强 ○ 访问延迟高 Greenplum on Kubernetes Network Interconnect Standby Host Master Host Segment Host Segment0 码力 | 33 页 | 1.93 MB | 1 年前3Greenplum 介绍
● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台: 支持扩展(Extension)、自定义类型和函数、PXF 和外部表技术。可以使用多种语言实现用户自定义函数和聚集,包括 PL/Python、PL/R、 PL/Java、PL/Perl、PL/PGSQL0 码力 | 3 页 | 220.42 KB | 1 年前3Pivotal HVR meetup 20190816
Real-Time Analytics Data Lake Data Warehouse Cloud HVR 连续数据集成技术 Migrations Disaster Recovery 6 扩展性—高性能架构 7 • 创建并装载目标表 • 用于实时复制的初始化 • 也可以单独使用 • 可以被定义为任务,定时调度执行 异构平台环境下初始化同步 8 • 非侵入式技术对生产没有影响0 码力 | 31 页 | 2.19 MB | 1 年前3Greenplum 6: 混合负载的理想数据平台
Greenplum 6: 混合负载的理想数据平台 高小明 全球领先的开源MPP大数据平台 可扩展性 ACID事务 VS 分布式 简单易用 VS 结构化 半结构非结构化 VS 事务型 分析型 VS MPP - massively parallel processing - 大规模并行处理 master standby primary0 码力 | 52 页 | 4.48 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
网络作为内部互联网络,否则,一定会遭受很多网络方面的困扰。 在缺省情况下,网络层使用 UDPIFC 协议。这是经过改善的 UDP 协议,在 UDP 协 议的基础上增强了数据包校验,其可靠性与 TCP 协议相似,但其性能和扩展性远好于 TCP 协议。当集群规模较小,同时,网络的稳定性较差的时候,如果 UDPIFC 协议不 稳定,可以考虑使用 TCP 协议,例如只有几十台主机时。通常,还是强烈建议配备稳 定的网络环境,使用 UDPIFC0 码力 | 416 页 | 6.08 MB | 1 年前3
共 7 条
- 1