SelectDB案例 从 ClickHouse 到 Apache Doris
架构演进历程与实践思考。 数据架构 1.0 2 如图所示为数据架构 1.0 架构图,分为数仓层、加速层、应用层三部分,数据架构 1.0 是 一个相对主流的架构,简单介绍一下各层的作用及工作原理: 数仓层:通过 ODS-DWD-DWS 三层将数据整合为不同主题的标签和指标体系, DWM 集市层围绕内容对象构建大宽表,从不同主题域 DWS 表中抽取字段。 加 未来规划 未来我们还将继续进行迭代和优化,我们计划在以下几个方向进行探索: 实现自动识别冷热数据,用 Apache Doris 存储热数据,Iceberg 存储冷数据,利用 Doris 湖仓一体化能力简化查询。 对高频出现的标签/指标组合,通过 Doris 的物化视图进行预计算,提升查询的性能。 探索 Doris 应用于数仓计算任务,利用物化视图简化代码逻辑,并提升核心数据的0 码力 | 12 页 | 1.55 MB | 1 年前3百度智能云 Apache Doris 文档
表中导入一行数据 其中第一条、第二条语句是一样的效果。在不指定目标列时,使用表中的列顺序来作为默认的目标列。 第三条、第四条语句表达的意思是一样的,使用 列的默认值,来完成数据导入。 2. 向 表中一次性导入多行数据 其中第一条、第二条语句效果一样,向 表中一次性导入两条数据 第三条、第四条语句效果已知,使用 列的默认值向 表中导入两条数据 3. 向 表中导入一个查询语句结果 INSERT 数、负载情况,以及数据源的情况综合考虑。 2. 这三个参数分别表示: 1. 每个子任务最大执行时间,单位是秒。范围为 5 到 60。默认为10。 2. 每个子任务最多读取的行数。必须大于等于200000。默认是200000。 3. 每个子任务最多读取的字节数。单位是字节,范围是 100MB 到 1GB。默认是 100MB。 这三个参数,用于控制一个子任务的执行时间和处理量。当任意一个达到阈值,则任务结束。 更多支持的自定义参数,请参阅 librdkafka 的官方 CONFIGURATION 文档中,client 端的配置项。如: 1. 使用 SSL 连接 Kafka 时,需要指定以下参数: 其中: 和 为必须,用于指明连接方式为 SSL,以及 CA 证书的位 置。 如果 Kafka server 端开启了 client 认证,则还需设置: 分别用于指定 client 的 public key,private0 码力 | 203 页 | 1.75 MB | 1 年前3Doris的数据导入机制以及原子性保证
承担百度所有统计报表业务 2012 01 Doris简介 04 05 06 • 全新的数据模型,查询存储 效率大幅提升 • MPP框架,支持分布式计算 2013 • 精简架构、统一用户客户端, 实现高可用 • 正式开始对外提供服务 2015 • 正式开源 • 希望能帮助更多人、让更多 人帮助Doris 2017 • 贡献给Apache社区,更名 为Apache Doris BE负责执行查询计划、数据存储 • 任何节点都可线性扩展 01 Doris 简介 导入的问题 02 典型应用场景——OLAP分析 数据源 数据应用 数据存储 对象存储BOS OLTP WEB端日志 移动端日志 本地文件 数据分析 业务应用 实时大屏 多维报表 自助查询 用户画像 Doris 02 导入的问题 Vn Vn Vn Vn V1-Vn-1 02 导入的问题 com/apache/incubator-doris 欢迎关注Doris微信公众号 更多技术趋势、实践案例、社区活动 欢迎登陆百度智能云官网,体验企业级托管版本Palo 全新UI支持,更有新用户0元三个月优惠活动 Thank You0 码力 | 33 页 | 21.95 MB | 1 年前3Apache Doris 在美团外卖数仓中的应用实践
所得的应用场景,美团平台使用Kylin作为公司的主要MOLAP引擎。MOLAP是预计算生产,在增 量业务,预设维度分析场景下表现良好,但在变化维的场景下生产成本巨大。例如,如果使用最 新商家类型回溯商家近三个月的表现,需要重新计算三个月的Cube,需花费几个小时,来计算近 TB的历史数据。另外,应对非预设维度分析,MOLAP模型需要重新进行适配计算,也需要一定的 迭代工作。 明细数据的交互 业务分析除了宏观数据 不支持明细数据的查询。 解决方案:引入MPP引擎,数据现用现算 既然变化维的历史数据预计算成本巨大,最好的办法就是现用现算,但现用现算需要强大的并行 计算能力。OLAP的实现有MOLAP、ROLAP、HOLAP三种形式,MOLAP以Cube为表现形式,但计 算与管理成本较高。ROLAP需要强大的关系型DB引擎支撑。长期以来,由于传统关系型DBMS的 数据处理能力有限,所以ROLAP模式受到很大的局限性。随着分布式、并行化技术成熟应用,MP0 码力 | 8 页 | 429.42 KB | 1 年前3
共 4 条
- 1