Apache Doris 在美团外卖数仓中的应用实践
同业务场景下,基于Kylin的MOLAP模式与基于 Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。 本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据 引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因 此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数 据应 商家的 粒度,通过现场计算进行历史数据的回溯分析,实现现用现算,可以节省掉预计算的巨大成本, 并带来较大的应用灵活性。这种情况下适合MPP引擎支撑下的ROLAP生产模式。 MPP引擎的选型 目前开源的比较受关注的OLAP引擎很多,比如Greenplum、Apache Impala、Presto、Doris、Cl ickHouse、Druid、TiDB等等,但缺乏实践案例的介绍,所以我们也没有太多的经验可以借鉴。 Join 谓词下推的传递性优化 如上图所示,对于下面的 SQL: select * from t1 join t2 on t1.id = t2.id where t1.id = 1 Doris开源版本默认会对t2表进行全表Scan,这样会导致上面的查询超时,进而导致外卖业务在D oris上的第一批应用无法上线。 于是我们在Doris中实现了第一个优化:Join谓词下推的传递性优化(MySQL和TiDB中称之为Cons0 码力 | 8 页 | 429.42 KB | 1 年前3Doris的数据导入机制以及原子性保证
基于MPP(大规模并行处理)架构的分析型数据库 01 Doris简介 • 性能卓越,PB级别数据毫秒/秒级响应 • 适用于高并发、低延时下的多维分析、实时报表等场景 • 由百度自研,2017年开源,2018年贡献给Apache社区后更名为 Apache Doris 系统定位 • 百度内部统称其为“百度数据仓库Palo”,同时百度云上提供Palo的企业级托管版本 发展历程 01 02 03 06 • 全新的数据模型,查询存储 效率大幅提升 • MPP框架,支持分布式计算 2013 • 精简架构、统一用户客户端, 实现高可用 • 正式开始对外提供服务 2015 • 正式开源 • 希望能帮助更多人、让更多 人帮助Doris 2017 • 贡献给Apache社区,更名 为Apache Doris • 截止目前,社区2000+star, Contributor0 码力 | 33 页 | 21.95 MB | 1 年前3SelectDB案例 从 ClickHouse 到 Apache Doris
严重,牵一发而动全身,容易出现集群稳定性问题,对于我们来说,同时维护 ClickHouse 和 Elasticsearch 两套引擎的连接与查询,成本和难度都比较高。 除此之外,ClickHouse 由国外开源,交流具有一定的语言学习成本,遇到问题无法准确反 馈、无法快速获得解决,与社区沟通上的阻塞也是促进我们进行架构升级的因素之一。 数据架构 2.0 3 基于架构 1.0 存在的问题和0 码力 | 12 页 | 1.55 MB | 1 年前3
共 3 条
- 1