SelectDB案例 从 ClickHouse 到 Apache Doris
圈选等内容分 析服务。 数据架构演进 TDW 是腾讯最大的离线数据处理平台,公司内大多数业务的产品报表、运营分析、数据挖 掘等的存储和计算都是在 TDW 中进行,内容库数据平台的数据加工链路同样是在腾讯数据 仓库 TDW 上构建的。截止目前,内容库数据平台的数据架构已经从 1.0 演进到了 4.0 , 经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层的初步引 据集使用,语义层对 标签和指标透明统一的定义提升了工作效率、降低了使用成本。 存在的问题: 从架构图可知,标签和指标等数据均处于下游位置,虽然标签与指标在语义层被显式定义, 但仍然无法影响上游链路,数仓层有自己的语义逻辑,加速层有自己的导入配置,这样就造 成了数据管理机制的割裂。 数据架构 4.0 在数据架构 3.0 的基础上,我们对语义层进行更深层次的应用,在数据架构 4.0 中,我们 二个实现思路,原因如下: 在 TDW 中生成宽表,虽然链路简单,但是弊端也比较明显。 存储成本较高, TDW 除了要维护离散的 80 +个 Source 表外,还需维护 1 个大 7 宽表、2 份冗余的数据。 实时性比较差,由于每个 Source 表产出的时间不一样,往往会因为某些延迟比较 大的 Source 表导致整个数据链路延迟增大。 开发成本较高,该方案只能0 码力 | 12 页 | 1.55 MB | 1 年前3Apache Doris 在美团外卖数仓中的应用实践
化,建设持续进步的数仓能力,也欢 迎大家多给我们提出建议。 数仓交互层引擎的应用现状 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado op/Spark分布式大数据技术生态来构建数据仓库,然后对数据进行适当的分层、加工、管理。而 在数据应用交互层面,由于时效性的要求,数据最终的展现查询还是需要通过DBMS(MySQL) 、MOLAP(Kylin)引擎来进行支撑。如下图所示: 形式,MOLAP以Cube为表现形式,但计 算与管理成本较高。ROLAP需要强大的关系型DB引擎支撑。长期以来,由于传统关系型DBMS的 数据处理能力有限,所以ROLAP模式受到很大的局限性。随着分布式、并行化技术成熟应用,MP P引擎逐渐表现出强大的高吞吐、低时延计算能力,号称“亿级秒开”的引擎不在少数,ROLAP模式 可以得到更好的延伸。单从业务实际应用考虑,性能在千万量级关联查询现场计算秒开的情况下 oris引擎 为驱动的ROLAP模式会为美团的业务团队带来更大的收益。从目前实践效果看,其完全有替代Kyl in、Druid、ES等引擎的趋势。 目前,数据库技术进步飞速,近期柏睿数据发布全内存分布式数据库RapidsDB v4.0支持TB级毫 秒响应(处理千亿数据可实现毫秒级响应)。可以预见,数据库技术的进步将大大改善数仓的分 层管理与应用支撑效率,业务将变得“定义即可见”,也将极大地提升数据的价值。0 码力 | 8 页 | 429.42 KB | 1 年前3Doris的数据导入机制以及原子性保证
Doris的性能、可用性、拓 展性进行了全面升级 • 承担百度所有统计报表业务 2012 01 Doris简介 04 05 06 • 全新的数据模型,查询存储 效率大幅提升 • MPP框架,支持分布式计算 2013 • 精简架构、统一用户客户端, 实现高可用 • 正式开始对外提供服务 2015 • 正式开源 • 希望能帮助更多人、让更多 人帮助Doris 2017 • 贡献给Apache社区,更名0 码力 | 33 页 | 21.95 MB | 1 年前3百度智能云 Apache Doris 文档
Compute Node 节点上的 ODBC Client 对外部数据源进行连接和查询。所以 要求外部数据源和 Compute Node 节点网络是双向连通的。 同时,Doris 查询外部表并不是分布式查询,而是单 Client 方式连接查询。所以性能效率上要远低于查询 Doris 自身存储的 表。外部表比较适用的场景式一些频繁更新的维度表和 Doris 中存储的事实表进行关联查询。或者通过0 码力 | 203 页 | 1.75 MB | 1 年前3
共 4 条
- 1