SelectDB案例 从 ClickHouse 到 Apache Doris
择哪个数据集使用,语义层对 标签和指标透明统一的定义提升了工作效率、降低了使用成本。 存在的问题: 从架构图可知,标签和指标等数据均处于下游位置,虽然标签与指标在语义层被显式定义, 但仍然无法影响上游链路,数仓层有自己的语义逻辑,加速层有自己的导入配置,这样就造 成了数据管理机制的割裂。 数据架构 4.0 在数据架构 3.0 的基础上,我们对语义层进行更深层次的应用,在数据架构 4.0 中,我们 是不支持对列名进行修改的,如果直接使用指标/标签名称作为列名,则无法满 足上述标签或指标更名的需求。而对于上下架标签的需求,如果直接以 drop/add column 的方式实现,则会涉及数据文件的更改,该操作耗时耗力,甚至会影响线上查询的性能。 那么,有没有更轻量级的方式来满足需求呢?接下来将为大家分享相关解决方案及收益: 为了实现少量标签、指标名称修改,我们用 MySQL 表存储相应的元数据,包括名 称、全局唯一的 Doris 表中预先创建适量 ID 列,当标签/指标完成元信息录入后,直接将预留的 ID 分配给新录入的标签/指标, 避免在查询高峰期因新增标签/指标所引起的 Schema Change 开销对集群产生的 影响。经测试,用户在元信息录入后 10 分钟内就可以使用相应的数据。 值得关注的是,在社区近期发布的 1.2.0 版本中,增加了 Light Schema Change 功能, 对 于增减列的操作不需要修改数据文件,只需要修改0 码力 | 12 页 | 1.55 MB | 1 年前3百度智能云 Apache Doris 文档
是否开启严格模式,默认为关闭。如果开启后,非空原始数据的列类型变换如果结果为 NULL,则会被过滤。指定方 式为: 5. 指定导入作业所使用的时区。默认为使用 Session 的 timezone 参数。该参数会影响所有导入涉及的和时区有关的函 数结果。 DELETE ON DELETE ON DELETE ON v3 >100 DELETE ON v3 >100 ORDER BY ORDER BY job_properties 小时。单位秒。 最大容忍可过滤(数据不规范等原因)的数据比例。默认零容忍。取值范围为 0 到 1。 导入内存限制。默认为 2GB。单位为字节。 是否对数据进行严格限制。默认为 false。 指定某些受时区影响的函数的时区,如 等等,具体请查阅 时区 文档。 column list column list (k1, k2, tmpk1) (k1, k2, tmpk1) COLUMNS FROM PATH 跳过哪些数据格式不正确的行。 关于容忍率的一些计算方式,可以参阅 列的映射,转换与过滤 文档。 6. 严格模式 属性用于设置导入任务是否运行在严格模式下。该格式会对列映射、转换和过滤的结果产生影响。关于严格模 式的具体说明,可参阅 严格模式 文档。 7. 超时时间 Broker Load 的默认超时时间为 4 小时。从任务提交开始算起。如果在超时时间内没有完成,则任务会失败。 8. 数据量和任务数限制0 码力 | 203 页 | 1.75 MB | 1 年前3Apache Doris 在美团外卖数仓中的应用实践
Kylin的MOLAP模式下存在如下问题: 历史数据每日刷新,失去了增量的意义。 每日回溯历史数据量大,10亿+的历史数据回溯。 数据计算耗时3小时+,存储1TB+,消耗大量计算存储资源,同时严重影响SLA的稳定性。 预计算的大量历史数据实际使用率低下,实际工作中对历史的回溯80%集中在近1个月左 右,但为了应对所有需求场景,业务要求计算近半年以上的历史。 不支持明细数据的查询。 解决方案:引入MPP引擎,数据现用现算 离线业务分析大多基于T+1的离线数据,但在营销活动场景下,外卖团队往往需要当日的实时数 据进行业务变化的监控与分析,通常情况下会采用实时流计算来实现。 外卖实时业务监控有如下特点: 避免分钟级的生产波动影响,业务上10、15分钟准实时数据可以满足分析需要。 实时数据需要与离线数据进行日环比与周同比的比对。 订单业务需要事件时间,体验业务需要生产时间,业务对齐逻辑复杂。 不同业务线需求差异大,指标需要良好扩展性。0 码力 | 8 页 | 429.42 KB | 1 年前3
共 3 条
- 1