SelectDB案例 从 ClickHouse 到 Apache Doris
应用层:根据场景创建 DataSet,作为逻辑视图从大宽表选取所需的标签与指标,同 时可以二次定义衍生的标签与指标。 存在的问题: 数仓层:不支持部分列更新,当上游任一来源表产生延迟,均会造成大宽表延迟, 进而导致数据时效性下降。 加速层:不同的标签跟指标特性不同、更新频率也各不相同。由于 ClickHouse 目前 更擅长处理宽表场景,无区别将所有数据导入大宽表生成天的分区将造成存储资源 数仓层:Apache Doris 的 Aggregate 数据模型可支持部分列实时更新,因此我们去 掉了 DWM 集市层的构建,直接增量到 Doris / ES 中构建宽表,解决了架构 1.0 中 上游数据更新延迟导致整个宽表延迟的问题,进而提升了数据的时效性。数据(指 标、标签等)通过 Spark 统一离线加载到 Kafka 中,使用 Flink 将数据增量更新到 Doris 和 ES 中(利用 Flink 实现进一步的聚合,减轻了 80 +个 Source 表外,还需维护 1 个大 7 宽表、2 份冗余的数据。 实时性比较差,由于每个 Source 表产出的时间不一样,往往会因为某些延迟比较 大的 Source 表导致整个数据链路延迟增大。 开发成本较高,该方案只能作为离线方式,若想实现实时方式则需要投入开发资源 进行额外的开发。 而在 Flink 中生成宽表,链路简单、成本低也容易实现,主要流程是:首先用0 码力 | 12 页 | 1.55 MB | 1 年前3百度智能云 Apache Doris 文档
会被删除。如果该目录没有被清除,用户可以手动清除。 Export 作业只会导出 Base 表的数据,不会导出物化视图的数据。 Export 作业会扫描数据,占用 IO 资源,可能会影响系统的查询延迟。 一个集群内同时运行的 Export 作业最大个数为 5。之后提交的只作业将会排队。 STREAM-LOAD STREAM LOAD STREAM LOAD Description Description 系统会生成一个 UUID。 Status: 导入结果。有如下取值: Success:表示导入成功,并且数据已经可见。 Publish Timeout:该状态也表示导入已经完成,只是数据可能会延迟可见。 Label Already Exists:Label 重复,需更换 Label。 Fail:导入失败。 ExistingJobStatus: 已存在的 Label 对应的导入作业的状态。 role_name]] Baidu 百度智能云文档 SQL手册 89 这里的 语法同 。且必须为使用 创建过的 。 中的 可以是域名,如果是域名的话,权限的撤销时间可能会有1分钟左右的延迟。 也可以撤销指定的 ROLE 的权限,执行的 ROLE 必须存在。 Example Example 1. 撤销用户 jack 数据库 testDb 的权限 2. 撤销用户 jack 资源 odbc_resource0 码力 | 203 页 | 1.75 MB | 1 年前3Doris的数据导入机制以及原子性保证
高度集成,不依赖于外部存储系统 • 架构优雅,单集群可水平扩展至200台以上 • 查询性能业界领先 • 高并发查询,100台集群可达10w QPS • 流式导入单节点100MB/s,小批量导入毫 秒延迟 • 数据、元数据高可用,线上稳定服务6年 • 机器故障副本自动迁移 01 Doris简介 MySQL Tools (MySQL Networking) FE (Leader,JAVA)0 码力 | 33 页 | 21.95 MB | 1 年前3Apache Doris 在美团外卖数仓中的应用实践
处理,且开发生产成本都比较低。以下为基于Doris的准实时数仓架构设计,是典型的实时Lambd a生产架构: 实现准实时计算方案,需要以下能力的支撑: 实时的写入能力:目前支持Kafka To Doris秒级延迟。在可靠性、稳定性建设方面仍需进一步提升。 引擎建设 :短平快的计算+高效的存储性能。目前Doris引擎性能仍有进步空间,2020年将有较大改进提升0 码力 | 8 页 | 429.42 KB | 1 年前3
共 4 条
- 1