基于 Greenplum 打造SaaS化电商服务平台
ERP类目中使用商家数最多的软件。自双十一购物节诞生以来,团队 经历了每一次电商大促的考验,尽管每年承载单量成几何倍数增加, 聚水潭系统依然保持平稳、安全和顺畅地运行。2018年11月11日, 聚水潭系统处理订单总量达1.51亿单,成交额达341亿。 聚水潭简介 关键字 数据架构 推 送 库 中 间 库 商 品 库 核 心 库 辅 助 库 推 送 库 中 间 库 商 品 库 核 心 库0 码力 | 7 页 | 547.94 KB | 1 年前3Greenplum 精粹文集
。 再通俗点说,Greenplum 主要定位在 OLAP 领域,利用 Greenplum MPP 数据库做大数据计算或分析平台非常适合,例如 : 数据仓库系统、 ODS 系统、ACRM 系统、历史数据管理系统、电信流量分析系统、移 动信令分析系统、SANDBOX 自助分析沙箱、数据集市等等。 Big Date2.indd 11 16-11-22 下午3:38 12 而 MPP Batch(不需要交互式),对计算性能不是 很敏感,那 Hadoop 也是不错的选择,因为 Hadoop 不需要你花费 较多的精力来模式化你的数据,节省数据模型设计和数据加载设计 方面的投入。这些系统包括:历史数据系统、ETL 临时数据区、数 据交换平台等等。 切记,千万不要为了大数据而大数据(就好像不要为了创新而创新一 个道理),否则,你项目最后的产出与你的最初设想可能 将差之千里,行业内不乏失败案例。 数据库在新的时代将保持旺盛的生命力,继续高速发展。 Big Date2.indd 19 16-11-22 下午3:38 20 二、Greenplum 背后的帝国 在 Pivotal 中国的发展历史上, 有一个产品名字必须被铭记, 那 就 是 今 天 在 中 国 Massively Parallel Processing 大规模并行 处理 (MPP) 数据库领域当之无 愧的领头羊 -Greenplum。不夸0 码力 | 64 页 | 2.73 MB | 1 年前3并行不悖- OLAP 在互联网公司的实践与思考
OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— 在现有服务器和新服务器上,建立新集群然后扩展 Ø 新部署集群,与现有集群双跑运行,稳定扩展(建议方式) 42 Greenplum扩展规划 Greenplum集群规划 • 业务运营越来越重要 Ø OLAP是根据历史数据,进行准确的统计计算 Ø 考虑过去的问题,为现在的决策提供参考和依据 • 定位与整合 Ø 公司内网GP小数据量计算,GP加载csv数据,GP大数据量统计 Ø 年表与实例无关,可以形成一个整体的大的Greenplum平台0 码力 | 43 页 | 9.66 MB | 1 年前3Greenplum机器学习⼯具集和案例
EMC/Greenplum Joe Hellerstein from Univ. of California, Berkeley. 历史回顾 2017.thegiac.com 金融 保险 医疗 汽车 制造 科研 政府机构 互联网 娱乐和媒体 零售 MADlib ⽤用户和场景 2017 ● 实现流程全⾃自动化 背景 2017.thegiac.com 数据源 • 客户数据 - 购买 - 预定 - 营销 - 在线注册 - ⽹网⻚页浏览历史 - 地理理信息数据 - 业务部⻔门信息 - ⽹网站⽤用户信息 • TB 级别数据 • 1000+ 特征 平台 建模⼯工具 PL/pgSQL 数据和技术预览0 码力 | 58 页 | 1.97 MB | 1 年前3Pivotal Greenplum 最佳实践分享
Instance) – preferred_role:实例原本应作为primary还是mirror运行 – role:实例目前作为primary或者mirror在运行 查看实例宕机历史和恢复历史信息 select * from gp_configuration_history order by 1 ; 查看Tablespace对应的文件系统位置 select0 码力 | 41 页 | 1.42 MB | 1 年前3Greenplum开源MPP数据库介绍
https://greenplum.org https://github.com/greenplum-db/gpdb Confidential │ ©2022 VMware, Inc. 4 Greenplum的历史 Ø 2003年,Luke Lonergan 和 Scott Yara 发起 Greenplum项目,从 PostgreSQL 8 分支,做成 MPP架构 Ø 2010年被EMC收购 Ø 2012年成为Pivotal的一部分0 码力 | 23 页 | 4.55 MB | 1 年前3Pivotal HVR meetup 20190816
网络带宽利用率低,且支持数据的安全传输 一些事前没有考虑到的问题: 1. 数据质量问题 0000-00-00 00:00:00 28:00:00 2. 数据乱码问题 3. DDL复制 4. 生产端历史数据purge问题 5. …… 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA Data lake dilemma Big+Open0 码力 | 31 页 | 2.19 MB | 1 年前3Greenplum数据库架构分析及5.x新功能分享
quicklz, delta, RLE 访问多列时速度快 支持高效更新和删除 AO 主要为插入而优化 表‘SALES’ 11月 列存储 行存储 7月 一年前 二年前 外部表 历史数据和不常访问的数 据存储在 HDFS 或者其他 外部系统中 无缝查询所有数据 Text, CSV, Binary, Avro, Parquet 格式 6月 5月 10月 9月 8月0 码力 | 44 页 | 8.35 MB | 1 年前3Greenplum 6: 混合负载的理想数据平台
quicklz, delta, RLE • 访问多列时速度快 • 支持高效更新和删除 • AO 主要为插入而优化 表‘SALES’ 11月 列存储 行存储 7月 一年前 二年前 外部表 • 历史数据和不常访问的数 据存储在 HDFS 或者其他 外部系统中 • 无缝查询所有数据 • Text, CSV, Binary, Avro, Parquet 格式 6月 5月 10月 9月 8月0 码力 | 52 页 | 4.48 MB | 1 年前3Greenplum 新一代数据管理和数据分析解决方案
67858566 rows – B - 80088742 rows – C - 372844366 rows – D - 75042462 rows – E - 2521897 rows 结论:超过6亿条历史数据导入,用时少于1.5小时,性能非常卓越。 • 全表扫描测试 – DWA测试环境:针对表C(372844366 rows)进行全表扫描,历时少于1.5 分钟。 – 客户投产环境:针对表C的一个子表(记录数约为C表的1/10)0 码力 | 45 页 | 2.07 MB | 1 年前3
共 12 条
- 1
- 2