SelectDB案例 从 ClickHouse 到 Apache Doris
(tagset)和指标集(metricset) 来发起查询。 对于数据分析师来说,可统一在语义层定义和创建衍生的指标和标签,解决了定义 口径不一致、管理和使用难度较高的问题。 对于业务来说,无需耗费过长时间考虑什么场景应选择哪个数据集使用,语义层对 标签和指标透明统一的定义提升了工作效率、降低了使用成本。 存在的问题: 从架构图可知,标签和指标等数据均处于下游位置,虽然标签与指标在语义层被显式定义, 实时可用:标签/指标导入以后,需实现数据尽快可用。不仅要支持常规离线导入 T+1 ,同时也要支持实时打标场景。 部分更新:因每个 Source 表由各自 ETL 任务产出对应的数据,其产出时间不一致, 并且每个表只涉及部分指标或标签,不同数据查询对时效性要求也不同,因此架构 需要支持部分列更新。 性能高效:具备高效的写入能力,且在圈选、洞察、报表等场景可以实现秒级响应。 存储成本较高, TDW 除了要维护离散的 80 +个 Source 表外,还需维护 1 个大 7 宽表、2 份冗余的数据。 实时性比较差,由于每个 Source 表产出的时间不一样,往往会因为某些延迟比较 大的 Source 表导致整个数据链路延迟增大。 开发成本较高,该方案只能作为离线方式,若想实现实时方式则需要投入开发资源 进行额外的开发。 而在 Flink0 码力 | 12 页 | 1.55 MB | 1 年前3百度智能云 Apache Doris 文档
DML DDL 信息查看语句 辅助命令 账户管理 内置函数 聚合函数 位操作函数 字符串函数 条件函数 数学函数 JSON解析函数 类型转换函数 格式转换函数 通用函数 时间和日期函数 BITMAP函数 HLL函数 窗口函数 哈希函数 Baidu 百度智能云文档 目录 2 SQL手册 数据类型 TINYINT数据类型 TINYINT数据类型 长度: 长度为1个字节的有符号整型。 不变,不会被转义。 日期字面常量 日期字面常量 Doris会自动将CHAR类型字面常量转成时间类型字面常量。Doris接受的时间类型字面常量的输入格式为成YYYY-MM-DD HH:MM:SS.ssssss,或者只包含日期。其中上述格式中小数点后面的数字(毫秒数)可带可不带。例如,用户可以指定时间类型 为‘2010-01-01’,或者'2010-01-01 10:10:10'。 SQL操作符 ,则表述数据可见。 3. 执行失败 执行失败表示没有任何数据被成功导入,并返回如下: 其中 显示失败原因。后面的 url 可以用于查询错误的数据: 可以查看到具体错误行。 2. 超时时间 INSERT 操作的超时时间由 会话变量 控制。默认为5分钟。超时则作业会被取消。 3. Label 和原子性 INSERT 操作同样能够保证导入的原子性,可以参阅 导入事务和原子性 文档。 当需要使用0 码力 | 203 页 | 1.75 MB | 1 年前3Apache Doris 在美团外卖数仓中的应用实践
架构上通过MOLAP+ROLAP双引擎模式来适配不同应用场景,如下图所示: 技术权衡 MOLAP :通过预计算,提供稳定的切片数据,实现多次查询一次计算,减轻了查询时的计算压力,保证 了查询的稳定性,是“空间换时间”的最佳路径。实现了基于Bitmap的去重算法,支持在不同维度 下去重指标的实时统计,效率较高。 ROLAP :基于实时的大规模并行计算,对集群的要求较高。MPP引擎的核心是通过将数据分散,以实现 Apache Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com 业务模型适配 MOLAP: 当业务分析维度相对固化,并在可以使用历史状态时,按照时间进行增量生产,加工 成本呈线性增长状态,数据加工到更粗的粒度(如组织单元),减少结果数据量,提高交互效率 。如上图所示,由A模型预计算到B模型,使用Kylin是一个不错的选择。 ROLAP: 当业 来实现。 外卖实时业务监控有如下特点: 避免分钟级的生产波动影响,业务上10、15分钟准实时数据可以满足分析需要。 实时数据需要与离线数据进行日环比与周同比的比对。 订单业务需要事件时间,体验业务需要生产时间,业务对齐逻辑复杂。 不同业务线需求差异大,指标需要良好扩展性。 由于业务上的复杂性,实时流计算中,需要考虑诸多业务口径的对齐,业务ER模型在合流处理中 开发成本较高,资源占用较大,通过0 码力 | 8 页 | 429.42 KB | 1 年前3
共 3 条
- 1