pdf文档 SelectDB案例 从 ClickHouse 到 Apache Doris

1.55 MB 12 页 0 评论
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档详细介绍了SelectDB从ClickHouse迁移至Apache Doris的过程及其原因。ClickHouse在维护成本、社区支持等方面存在局限性,而Apache Doris凭借简化的架构、灵活的数据模型、丰富的导入方式以及活跃的社区支持,成为更优选择。在数仓层,Doris支持部分列更新,提升了数据时效性;在加速层,通过拆分大宽表并配置分区策略,优化了存储和查询效率。架构2.0的问题主要集中在指标和标签的统一管理上,但通过语义层的引入,进一步优化了数据管理。Document还讨论了未来的优化方向,包括冷热数据管理、物化视图预计算等,以提升查询性能和降低运维成本。
AI总结
以下是对文档内容的总结,语言简洁明了,重点突出核心观点和关键信息: --- ### 《SelectDB案例:从ClickHouse到Apache Doris》 #### 背景与迁移原因 1. **ClickHouse的局限性**: - 维护两套引擎(ClickHouse和Elasticsearch)的连接与查询成本高,架构复杂。 - 国外开源项目,存在语言障碍和社区支持不及时的问题。 2. **架构1.0的问题**: - 数仓层不支持部分列更新,导致数据时效性下降。 - 加速层存储资源浪费,维护成本高。 - 应用层架构复杂,ClickHouse计算和存储耦合,集群稳定性差。 --- #### Apache Doris的优势 1. **架构与运维**: - 极简架构,只需两个进程(FE和BE),部署和运维简单。 - 兼容MySQL协议,支持标准SQL。 2. **功能特性**: - 支持丰富的数据模型和部分列更新。 - 支持联邦查询,兼容Hive、Iceberg、Hudi等数据湖和MySQL、Elasticsearch等数据库。 - 多样化的数据导入方式,支持实时和批量同步。 3. **社区支持**: - 社区活跃,SelectDB有专职技术支持团队,问题反馈及解决快。 --- #### 数据架构优化 1. **架构2.0**: - **数仓层**:通过Doris的Aggregate数据模型支持部分列实时更新,去除DWM集市层,直接构建宽表,提升数据时效性。 - **加速层**:拆分大宽表为小宽表,优化分区策略,减少存储压力,提升查询吞吐量。 - **应用层**:DataSet统一指向Doris,支持外表查询,直接查询ES引擎。 2. **存在问题**: - DataSet灵活性高,但指标和标签定义缺乏统一管理。 --- #### 架构4.0与语义层应用 1. **语义层作用**: - 数仓层:统一定义计算逻辑,生成SQL命令。 - 加速层:接收配置,触发导入任务。 - 应用层:解耦物理引擎,生成物理SQL。 2. **优势**: - 统一管理核心指标和标签,解耦应用层与物理引擎。 3. **存在问题**: - 自动生成准确的SQL语句难度较大。 --- #### 优化经验 1. **场景需求**: - 支持实时可用、部分更新、性能高效和成本控制。 2. **数据导入方案**: - 选择Flink生成宽表,优化数据写入,减轻Doris压力。 3. **查询优化**: - 场景需求:标签圈选逻辑复杂,支持历史数据查询和聚合分析。 - 采用Doris on ES方案,结合Doris的分布式查询和ES的全文检索能力。 - 优化措施: - 分桶优化:降低网络IO开销,减少数据Shuffle。 - Bitmap压缩:优化数据获取,减少网络开销。 - Join优化:本地Join避免数据传输。 - 效果:百万分群圈选查询时间从60秒缩短至3.7秒。 --- #### 成本优化 1. **冷热数据管理**: - Doris TTL机制:近一年数据存储在Doris,更早数据存储在TDW。 - 分区级副本设置:动态调整副本数量。 - 数据转冷:SSD存储7天内数据,旧数据转存HDD。 - 标签上下线:降低写入和存储成本。 2. **成本降低效果**: - 存储成本降低42%。 - 开发和时间成本降低40%。 --- #### 未来规划 1. **技术探索**: - 自动识别冷热数据,结合Iceberg存储冷数据。 - 物化视图预计算,提升高频标签/指标组合查询性能。 - Doris应用于数仓计算任务,提升时效性。 2. **性能提升**: - 倒排索引功能(2.0版本):支持文本全文检索,提升性能。 --- 上述总结重点突出SelectDB从ClickHouse迁移至Doris的背景、优化策略、架构演进和成本优化方案,逻辑清晰,内容完整。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 5 页请下载阅读 -
文档评分
请文明评论,理性发言.