百度智能云 Apache Doris 文档
202 目录 目录 目录 SQL手册 数据类型 字面常量 SQL操作符 别名 SQL-手册 注释 语法帮助 DML DDL 信息查看语句 辅助命令 账户管理 内置函数 聚合函数 位操作函数 字符串函数 条件函数 数学函数 JSON解析函数 类型转换函数 格式转换函数 通用函数 时间和日期函数 BITMAP函数 HLL函数 窗口函数 哈希函数 示例: HLL 数据类型 HLL 数据类型 HLL(HyperLogLog) 类型是一个二进制类型。HLL 类型只能用于聚合类型的表(Aggregation Table),并且必须指定聚合类型为 HLL_UNION。 HLL 类型主要用于非精确快速去重场景下,对数据进行预聚合。 HLL列只能通过配套的 hll_union_agg、hll_cardinality、hll_hash 进行查询或使用。 进行查询或使用。 BITMAP 数据类型 BITMAP 数据类型 BITMAP 类型是一个二进制类型。BITMAP 类型只能用于聚合类型的表(Aggregation Table),并且必须指定聚合类型为 BITMAP_UNION。 BITMAP 类型主要用于精确去重场景下,对数据进行预聚合。同时也可以用于如用户画像场景存放用户ID等。 BITMAP 列只能通过配套的 BITMAP 函数进行查询和使用。0 码力 | 203 页 | 1.75 MB | 1 年前3SelectDB案例 从 ClickHouse 到 Apache Doris
上游数据更新延迟导致整个宽表延迟的问题,进而提升了数据的时效性。数据(指 标、标签等)通过 Spark 统一离线加载到 Kafka 中,使用 Flink 将数据增量更新到 Doris 和 ES 中(利用 Flink 实现进一步的聚合,减轻了 Doris 和 ES 的更新压力)。 加速层:该层主要将大宽表拆为小宽表,根据更新频率配置不同的分区策略,减小 数据冗余带来的存储压力,提高查询吞吐量。Doris 具备多表查询和联邦查询性能 也只需保存最新待导入的数据。同时该方案整体实时性更好且可控,并且大宽表聚合在 Flink 中执行,可灵活加入各种 ETL 逻辑,离线和实时可对多个开发逻辑进行复用,灵活度较高。 数据模型选择 目前我们生产环境所使用的版本为 Apache Doris 1.1.3,我们对其所支持的 Unique 主键模 型、Aggregate 聚合模型和 Duplicate 明细模型进行了对比 ,相较于 Unique Unique 模型和 Duplicate 模型,Aggregate 聚合模型满足我们部分列更新的场景需求: Aggregate 聚合模型可以支持多种预聚合模式,可以通过 REPLACE_IF_NOT_NULL 的方式实 现部分列更新。数据写入过程中,Doris 会将多次写入的数据进行聚合,最终用户查询时, 返回一份聚合后的完整且正确的数据。 另外两种数据模型适用的场景,这里也进行简单的介绍: 0 码力 | 12 页 | 1.55 MB | 1 年前3Apache Doris 在美团外卖数仓中的应用实践
据管理;BE主要负责查询的执行和数据存储。关于Doris的更多技术细节,可参考其官方文档。 Doris的特点: 同时支持高并发点查询和高吞吐的Ad-hoc查询。 同时支持离线批量导入和实时数据导入。 同时支持明细和聚合查询。 兼容MySQL协议和标准SQL。 支持Rollup Table和Rollup Table的智能查询路由。 支持较好的多表Join策略和灵活的表达式查询。 支持Schema在线变更。 支持Range和Hash二级分区。 显然,上面的计算方式,当数据量越来越大,到几十亿几百亿时,使用的IO资源、CPU资源、内 存资源、网络资源会变得越来越多,查询也会变得越来越慢。 于是我们在Doris中新增了一种Bitmap聚合指标,数据导入时,相同维度列的数据会使用Bitmap 聚合。有了Bitmap后,Doris中计算精确去重的方式如下: 7 / 8 Apache0 码力 | 8 页 | 429.42 KB | 1 年前3
共 3 条
- 1