SelectDB案例 从 ClickHouse 到 Apache Doris
圈选等内容分 析服务。 数据架构演进 TDW 是腾讯最大的离线数据处理平台,公司内大多数业务的产品报表、运营分析、数据挖 掘等的存储和计算都是在 TDW 中进行,内容库数据平台的数据加工链路同样是在腾讯数据 仓库 TDW 上构建的。截止目前,内容库数据平台的数据架构已经从 1.0 演进到了 4.0 , 经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层的初步引 据集使用,语义层对 标签和指标透明统一的定义提升了工作效率、降低了使用成本。 存在的问题: 从架构图可知,标签和指标等数据均处于下游位置,虽然标签与指标在语义层被显式定义, 但仍然无法影响上游链路,数仓层有自己的语义逻辑,加速层有自己的导入配置,这样就造 成了数据管理机制的割裂。 数据架构 4.0 在数据架构 3.0 的基础上,我们对语义层进行更深层次的应用,在数据架构 4.0 中,我们 二个实现思路,原因如下: 在 TDW 中生成宽表,虽然链路简单,但是弊端也比较明显。 存储成本较高, TDW 除了要维护离散的 80 +个 Source 表外,还需维护 1 个大 7 宽表、2 份冗余的数据。 实时性比较差,由于每个 Source 表产出的时间不一样,往往会因为某些延迟比较 大的 Source 表导致整个数据链路延迟增大。 开发成本较高,该方案只能0 码力 | 12 页 | 1.55 MB | 1 年前3
共 1 条
- 1