Greenplum机器学习⼯具集和案例
thegiac.com www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com Greenplum: 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com Greenplum Procedure Language PLPython, PLR 2017.thegiac.com PL/Python0 码力 | 58 页 | 1.97 MB | 1 年前3Greenplum 精粹文集
的操作和交互过程。 而对 MapReduce 编程明显是困难的,在原生的 Mapreduce 开发 框架基础上的开发,需要技术人员谙熟于 JAVA 开发和并行原理, 不仅业务分析人员无法使用,甚至技术人员也难以学习和操控。为 了解决易用性的问题,近年来 SQL-0N-HADOOP 技术大量涌现 出来,几乎成为当前 Hadoop 开发使用的一个技术热点趋势。 这 些 技 术 包 括:Hive、Pivotal 由于计算节点真正的负责计算, 计算节点的硬件性能直接影响到整体 集群的性能,Greenplum 建议单个集群最开始搭建的时候最好选用相 同规格的计算服务器,后续扩容也要保证新加机器的性不能低于原有 机器,这是由于 MPP 架构本身存在木桶效应,单台机器的性能短板, 很可能导致整体集群变慢,虽然 Greenplum 可以根据具体的硬件配置, 初始化的时候调整每台计算节点部署的实例数,但从具体实施看,极 少有客户这么做。 盘在性能和稳定 性上都明显的高于 SATA 盘 。 ·RAID 卡一定要带 cache,否则做完 RAID 后写的性能会非常差, 曾遇到一客户,把 GP 迁移到更大容量、更多磁盘的机器后,集群 性能反而下降,就是因为新采购的机器 RAID 卡没有 cache。 Big Date2.indd 26 16-11-22 下午3:38 Greenplum 精粹文集 27 ·加强硬件的监控,所有故障中,最怕硬件半死不活的状态,曾遇到0 码力 | 64 页 | 2.73 MB | 1 年前3Greenplum Database 管理员指南 6.2.1
GP : Greenplum 数据库 Master : GP 的控制节点/实例 Standby : GP 的备用控制节点/实例 Host(主机) : GP 的一台独立的机器设备 Instance : GP 的计算实例,很多时候也叫 Segment Primary : GP 的主计算实例 Mirror : GP 的镜像计算实例 MPP : Primary 配对的镜像都在下一台机器上,这与自带的 group 模式一致。 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 16 - 如下图所示,这是一种混合配对镜像模式,将一群数量为偶数的机器,分为两组, 每台机器的镜像分散在对面组的机器上。关于如何选择镜像模式,以及如何分散镜像关 目前,编者的一键式集群配置安装初始化命令已经内置了两种镜像模式,分别为 RING 和 PAIR。RING 是一种带有环状关系的镜像模式,典型的特征是,一组机器形成 对等的环,环上的每台机器,其对应的 Mirror 会散落在后面的一台或者多台机器上, 这种模式包含了 gpinitsystem 命令缺省支持的两种镜像模式:GROUP 和 SPREAD。 PAIR 模式是一种两组配对互为镜像的模式,是一种更能兼顾性能和安全性的方案。0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum 编译安装和调试
source一些环境变量, 例如PATH $ source $HOME/gpdb.master/greenplum_path.sh # step 2. 交换集群中所有机器的ssh密钥, 我们这里只有一台机器 $ gpssh-exkeys -h `hostname` # step 3. 生成三个配置文件: env.sh, hostfile, gpinitsystem_config PGPORT=5432 export MASTER_DATA_DIRECTORY=$HOME/data/master/gpseg-1 # hostfile 包括集群中所有机器的hostname, 我们这里只有一台 $ cat hostfile$ cat gpinitsystem_config ARRAY_NAME="Open 常用的调试器gdb/lldb虽然简单易用、功能也很强大,但是不直观。很多集成开发环境(IDE)提 供了非常直观、强大、易用的调试环境,包括 clion、eclipse、xcode 等。IDE 对于学习 Greenplum 代码也非常有帮助,可以大大提高效率。 下面简单介绍如何使用 clion 图形化用户界面调试 Greenplum 代码。(Eclipse、VisualCode具有 类似功能) 0 码力 | 15 页 | 2.07 MB | 1 年前3Pivotal Greenplum 5: 新一代数据平台
Java、Perl、C Apache SOLR PostGIS ANSI SQL 其他数据库 SQL ML/统计数据/图形 程序化 文本 地理空间 公有云 私有云 完全 托管云 本地 BI / 报告 自定义应用 机器学习 AI SQL 大规模 并行处理 (MPP) PB 级数据 加载 查询 优化器 (GPORCA) Workload Manager 多态存储 Command Center SQL 兼容性 rpart、sandwich、scales、stringi、stringr、survival、tibble、tseries 和 zoo。 此外,Greenplum 5 还支持最新版 Apache MADlib(可用 SQL 进行机器学习和图分析),支持在 Apache Solr 数据库内实 施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接受 来自支持的 Solr 查0 码力 | 9 页 | 690.33 KB | 1 年前3Greenplum 新一代数据管理和数据分析解决方案
将SQL的普遍性与MapReduce的灵 活编程模式结合起来 • 针对业务关键分析功能提供企业级集 成、支持和发布 • 为新一代分析处理技术开启了大门– 其中包括文本分析、图形分析、数据 挖掘、机器学习以及更多内容 客户实例:福克斯互动媒体 (Fox Interactive Media) • 业务问题 • 改进定位广告 • 竞争对手 • Teradata, Oracle • 数据规模 Facts • 6台华为-赛门铁克T3500服务搭建数据库阵列 • 每台T3500服务器可以自带24TB硬盘 • 每台服务器含有两个四核的CPU(8 Intel X5560) • 每台机器含有32GB内存 • 每台机器配置6个千兆网口 • Raid10 • Solaris 10 网站日志 交易数据 详细数据 Greenplum •海量基础数据 •大数据量查询 Oracle 加工数据0 码力 | 45 页 | 2.07 MB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
Rcpp、RcppEigen、RobustRankAggreg 等 R 语言算法库和程序包。 此外,Greenplum 还支持最新版 Apache MADlib(可用 SQL 进行机器学习、深度学习和图分析),它支持高并行 和基于 GPU 的深度学习模型训练,内置于集群硬件中的 GPU,能帮助 Greenplum 6 的用户获得超过 CPU 2 个数量 级的性能加速,尤其对于可预测的分析用例和图像识别,这些功能将展现奇效。支持在0 码力 | 17 页 | 2.04 MB | 1 年前3Greenplum 6: 混合负载的理想数据平台
Pivotal Confidential–Internal Use Only 卓越的OLAP特性 列式存储 分区、压缩 高级特性 递归查询、窗口函数 集成分析 多格式、多语言 Madlib: 机器学习 数据库内并行模型训练和预测、分类 ORCA 复杂查询优化器 成熟稳定 完备生态、支撑核心生产系统 13 Pivotal Confidential–Internal Use Only set_role_quota ('u1', '1 MB'); 客户案例 ■ 通过kafka近实时(500ms~1s) 间隔加载:100万/s ■ 简单查询1000并发:1s内返回 ■ 复杂关联查询:s级返回 数据量 机器数 表个数 索引个数 并发数 插入间隔 平均时延 最长时延 插入速度 9.8亿 18 4 12 16 500ms 170ms 1100ms 300万/s 展望 Greenplum 6.x/70 码力 | 52 页 | 4.48 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
级数据仓库服务。UDW可以通过SQL让数据分析更简 单、⾼效,为互联⽹、物联⽹、⾦融、电信等⾏业提供丰富的业务分析能⼒。⽀持MADlib扩展,客⼾可以在udw上使⽤MADlib的扩展功能,从⽽让机器学习变得简单,⽀持PostGIS,可以⽅便 的⽀持空间、地理位置应⽤。最新⽀持greeplum6.2.1版本。 云数据仓库产品架构 云数据仓库产品架构 云数据库仓库 UDW 服务的架构图如下所⽰: /usr/lib64/libodbcpsqlS.so FileUsage = 1 3. 测试ODBC驱动是否安装成功 # odbcinst -q -d [PostgreSQL] 如果出现以上输出,代表在这台机器上已成功安装了PostgreSQL的ODBC驱动。 4. 编辑/etc/odbc.ini⽂件配置ODBC连接 快速上⼿ Greenplum数据仓库 UDW Copyright © 2012-2021 Copyright © 2012-2021 UCloud 优刻得 56/206 3. 测试ODBC驱动是否安装成功 # odbcinst -q -d [PostgreSQL] 如果出现以上输出,代表在这台机器上已成功安装了PostgreSQL的ODBC驱动。 4. 编辑/etc/odbc.ini⽂件配置ODBC连接 [testdb] Description = PostgreSQL connection0 码力 | 206 页 | 5.35 MB | 1 年前3Greenplum开源MPP数据库介绍
Ø 外部表: HDFS,S3,文件, 网络,命令,流式数据… Confidential │ ©2022 VMware, Inc. 16 Greenplum生态:Madlib Ø 在数据库内做机器学习 Ø 非常多的算法库 Confidential │ ©2022 VMware, Inc. 17 GPText Ø MPP化的Apache Solr,用于全文检索和文本分析 Ø 举例: q0 码力 | 23 页 | 4.55 MB | 1 年前3
共 15 条
- 1
- 2