百度智能云 Apache Doris 文档
REPLACE_IF_NOT_NULL:非空值替换。和 REPLACE 的区别在于对于null值,不做替换。 HLL_UNION:HLL 类型的列的聚合方式,通过 HyperLogLog 算法聚合。 HLL_UNION:HLL 类型的列的聚合方式,通过 HyperLogLog 算法聚合。 BITMAP_UNION:BIMTAP 类型的列的聚合方式,进行位图的并集聚合。 BITMAP_UNION:BIMTAP 类型的列的聚合方式,进行位图的并集聚合。 Keywords APPROX_COUNT_DISTINCT Description Description 功能:该聚合函数返回指定列的去重值。不同于 方法,该函数使用 HyperLogLog 算法返回有误差的去重值, GROUP BY GROUP BY GROUP BY GROUP BY mysql mysql>> select select ss_ticket_number ss_ticket_number Example Example Keywords Keywords PERCENTILE_APPROX Description Description 功能:该类聚合函数采用 T-Digest 算法,返回一组数的指定分位值的近似值。分位值 需在 0-1 之 间。 可以控制结果的精确度,取值范围在 2014 - 10000 之间。值越大,精度越高,到内存开销和耗时越大。 默认为 2048。0 码力 | 203 页 | 1.75 MB | 1 年前3Apache Doris 在美团外卖数仓中的应用实践
如下图所示: 技术权衡 MOLAP :通过预计算,提供稳定的切片数据,实现多次查询一次计算,减轻了查询时的计算压力,保证 了查询的稳定性,是“空间换时间”的最佳路径。实现了基于Bitmap的去重算法,支持在不同维度 下去重指标的实时统计,效率较高。 ROLAP :基于实时的大规模并行计算,对集群的要求较高。MPP引擎的核心是通过将数据分散,以实现 CPU、IO、内存资源的分布,来提升并行计算能 can需要的较大的磁盘IO,以及并行导致的高CPU,仍然是资源的短板。因此,高频的大规模汇 总统计,并发能力将面临较大挑战,这取决于集群硬件方面的并行计算能力。传统去重算法需要 大量计算资源,实时的大规模去重指标对CPU、内存都是一个巨大挑战。目前Doris最新版本已经 支持Bitmap算法,配合预计算可以很好地解决去重应用场景。 3 / 80 码力 | 8 页 | 429.42 KB | 1 年前3SelectDB案例 从 ClickHouse 到 Apache Doris
针对这两点,我们进行了以下优化: 11 增加了查询会话变量 es_optimize,以开启优化开关; 数据写入 ES 时,新增 BK 列用来存储主键 ID Hash 后的分桶序号,算法和 Doris 的分桶算法相同(CRC32); BE 生成 Bucket Join 执行计划,将分桶序号下发到 BE ScanNode 节点,并下推到 ES; ES 对查询出的数据进行 Bitmap0 码力 | 12 页 | 1.55 MB | 1 年前3
共 3 条
- 1