并行不悖- OLAP 在互联网公司的实践与思考
1 并行不悖 – OLAP 在互联网公司的实践与思考 赵飞祥 2 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 ——0 码力 | 43 页 | 9.66 MB | 1 年前3Qcon北京2018--《MySQL的Docker容器化大规模实践》--王晓波
部署一套高可用集群+备份,配置监控。至少30分钟。部署32个节点的分片的集群,至少一个上午 。无系统化管理,资源分配情况,无法统一调配,服务器资源利用率低。 MySQL容器平台: 部署一套高可用集群+自动化备份+慢日志分析+监控。用时1-2分钟。部署32个节点的分片集群, 只需5分钟。标准化的系统管理,部署环境统一、配置文件统一。系统化的操作降低人为失误和重复劳 动。资源使用集中管理,有效利用服务器资源。 效率提升0 码力 | 32 页 | 7.11 MB | 1 年前3Apache Doris 在美团外卖数仓中的应用实践
Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。 本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据 引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因 此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数 据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢 https://www.iteblog.com 可以看到,当使用Bitmap之后,之前的PV计算过程会大幅简化,现场查询时的 IO、CPU、内存,网络资源也会显著减少,并且不再会随着数据规模而线性增加。 总结与思考 在外卖运营分析的业务实践中,由于业务的复杂及应用场景的不同,没有哪一种数据生产方案能 够解决所有业务问题。数据库引擎技术的发展,为我们提供更多手段提升数据建设方案。实践证 明,以Doris引擎为0 码力 | 8 页 | 429.42 KB | 1 年前32. Clickhouse玩转每天千亿数据-趣头条
select count(1) from table where dt='' and timestamp>='' and timestamp<='' and eventType='' 建表的时候缺乏深度思考,由于分时指标的特性,我们的表是order by (timestamp, eventType)进行索引 的,这样在计算累时指标的时候出现非常耗时(600亿+数据量) 分析: 对于累时数据,时间索引 录,merge跟不上 3:一个目录,一个zxid,zookeeper集群的压力大,插入速度严重变慢 解决: 1:增大background_pool_size治标不治本 2:设置分区的时候需要思考,数据的特性需要了解 我们遇到的问题 查询过程中clickhouse-server进程挂掉 分析: clickhouse裸奔时max_memory_usage_for_all_queries默0 码力 | 14 页 | 1.10 MB | 1 年前3SelectDB案例 从 ClickHouse 到 Apache Doris
Doris 的替换、经历了数据架构语义层的初步引 入到深度应用,有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等问题,收 益显著。接下来将为大家分享腾讯音乐内容库数据平台的数据架构演进历程与实践思考。 数据架构 1.0 2 如图所示为数据架构 1.0 架构图,分为数仓层、加速层、应用层三部分,数据架构 1.0 是 一个相对主流的架构,简单介绍一下各层的作用及工作原理: preview 版本中可用于功能评估和性能测试,相 信在这个场景使用后会有进一步的性能提升。 成本优化 在当前大环境下,降本提效成为了企业的热门话题,如何在保证服务质量的同时降低成本开 销,是我们一直在思考的问题。在我们的场景中,成本优化主要得益于 Doris 自身优秀的 能力,这里为大家分享两点: 1、冷热数据进行精细化管理。 利用 Doris TTL 机制,在 Doris 中只存储近一年的数据,更早的数据放到存储代价0 码力 | 12 页 | 1.55 MB | 1 年前3云原生虚拟数仓PieCloudDB Database产品白皮书
生态,可以很好地处理地理信息数据和文本,未来会扩展其他 API 接口,支持常见的数仓的 数据分析和人工智能、数据科学等功能。 PieCloudDB 产品概述 拓数派旗下旗舰产品PieCloudDB,是以对行业顶级数据库的抽象思考和设计原则复用为技术路线,可将物理数仓整合 到云原生数据计算平台,根据数据授权动态创建虚拟数仓,按需灵活计算,打破数据孤岛,支撑更大模型所需的数据 和计算。在云上,数据计算资源按需扩缩容,提升数 立下一代云原生数据平台的前沿标准,驱动企业实现从“软件 公司”到“数据公司”再到“数学公司”的持续进阶,加速数字化转型升级。 拓数派旗下旗舰产品PieCloudDB,是以对行业顶级数据库的抽象思考和设计原则复用为技术路线,可将物理数仓整合 到云原生数据计算平台,根据数据授权动态创建虚拟数仓,按需灵活计算,打破数据孤岛,支撑更大模型所需的数据 和计算。在云上,数据计算资源按需扩缩容,提升数0 码力 | 17 页 | 2.02 MB | 1 年前3Greenplum分布式事务和两阶段提交协议
Robert Haas 2018, “DO or UNDO - there is no VACUUM”: zheap, in-place update PostgreSQL和Greenplum采用的策略 思考: 1. MySQL同样采用MVCC,事务恢复的时候为什么需要undo log? 2. 出现新硬件(NVRAM)并不断得到广泛应用,WAL是否适合新硬件特点? (业内的探索:CMU, VLDB0 码力 | 42 页 | 2.12 MB | 1 年前3Mybatis 框架课程第二天
birthday as userBirthday, sex as userSex,address as userAddress from user 运行结果: 思考: 如果我们的查询很多,都使用别名的话写起来岂不是很麻烦,有没有别的解决办法呢? 请看下一小节。 4.2 resultMap 结果类型 resultMap 标签可以建0 码力 | 27 页 | 1.21 MB | 1 年前3PieCloudDB Database 产品白皮书
| PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 PiecloudDB 产品概述 拓数派旗下旗舰产品 PieCloudDB ,是以对行业顶级数据库的抽象思考和设计原则复用为技术路线,采用领先的数仓 虚拟化技术,可将多个数仓统一整合到一个高可用的云虚拟数仓,打通多云的数据管道,数据计算资源按需扩缩容, 提升数仓的敏捷性和弹性,助力企业降低数仓管理复杂度,0 码力 | 17 页 | 2.68 MB | 1 年前3πDataCS赋能工业软件创新与实践
性保证了虚拟数仓永远在线可用,S3存储和跨云灾备 能⼒保证了永不丢数。 坚如磐⽯ | ⾼安全 ⾼在线 ⾼可靠 MPP πPG eMPP 内 核 存 算 分 离 重 写 云原⽣创新设计和专利 ⾏业顶级数据库的 抽象思考和设计原则复用 @2024 OpenPie. All rights reserved. OpenPie Confidential 云原⽣分布式优化器--达奇 多表连接的最优 顺序搜索 多阶段聚集0 码力 | 36 页 | 4.25 MB | 1 年前3
共 18 条
- 1
- 2