SelectDB案例 从 ClickHouse 到 Apache Doris
加速层:在数仓中构建的大宽表导入到加速层中,Clickhouse 作为分析引擎, Elasticsearch 作为搜索/圈选引擎。 应用层:根据场景创建 DataSet,作为逻辑视图从大宽表选取所需的标签与指标,同 时可以二次定义衍生的标签与指标。 存在的问题: 数仓层:不支持部分列更新,当上游任一来源表产生延迟,均会造成大宽表延迟, 进而导致数据时效性下降。 加速层:不同的标签跟指标特性不同、更新频率也各不相同。由于 灵活度较高,数据分析师可对指标和标签自由组合和定义,但是不同的分 析师对同一数据的定义不尽相同、定义口径不一致,导致指标和标签缺乏统一管理, 4 这使得数据管理和使用的难度都变高。 Dataset 与物理位置绑定,应用层无法进行透明优化,如果 Doris 引擎出现负载较 高的情况,无法通过降低用户查询避免集群负载过高报错的问题。 数据架构 3.0 针对指标和标签定义口径不统一,数据使用和管理难度较高的问题,我们继续对架构进行升 (tag)与指标(metric)变为“一等公民”,作为 数据定义与管理的基本对象。 引入语义层的优势有: 对于技术来说,应用层不再需要创建 DataSet,从语义层可直接获取特定内容对象 的标签集 (tagset)和指标集(metricset) 来发起查询。 对于数据分析师来说,可统一在语义层定义和创建衍生的指标和标签,解决了定义 口径不一致、管理和使用难度较高的问题。 0 码力 | 12 页 | 1.55 MB | 1 年前3百度智能云 Apache Doris 文档
注意,时间格式不能和 OFFSET 格式混用。 4. 指定自定义kafka参数。功能等同于kafka shell中 "--property" 参数。 当参数的 value 为一个文件时,需要在 value 前加上关键词:"FILE:"。 关于如何创建文件,请参阅 CREATE FILE 命令文档。 更多支持的自定义参数,请参阅 librdkafka 的官方 CONFIGURATION 节点的内存使用上限,默认为 2GB,单位为字节。 :导入作业的超时时间,默认为2小时,单位是秒。 :每个子任务能分配扫描的最大 Tablet 数量。 导出功能需要通过 Broker 进程写数据到远端存储上。这里需要定义相关的连接信息供 Broker 使用。 Example Example 1. 将 testTbl 表中的所有数据导出到 hdfs 上 2. 将 testTbl 表中的分区 p1, p2 导出到 该功能通常用于管理一些其他命令中需要使用到的文件,如证书、公钥私钥等等。 :自定义文件名。 :文件归属于某一个数据库。如果没有指定,则使用当前数据库。 支持以下参数: :必须。指定一个文件的下载路径。当前仅支持无认证的 http 下载路径。命令执行成功后,文件将被保存在 Doris 中,该 url 将不再需要。 :必须。对文件的分类名,可以自定义。但在某些命令中,会查找指定 catalog 中的文件。比如例行导入中0 码力 | 203 页 | 1.75 MB | 1 年前3Apache Doris 在美团外卖数仓中的应用实践
所示: 如果想及时了 解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop 汇总数据的交互 业务团队日常经营分析最典型的场景就是各种维度下的自定义查询,面对如此灵活可变、所见即 1 / 8 Apache Doris在美团外卖数仓中的应用实践 Spark大数据博客 目前,数据库技术进步飞速,近期柏睿数据发布全内存分布式数据库RapidsDB v4.0支持TB级毫 秒响应(处理千亿数据可实现毫秒级响应)。可以预见,数据库技术的进步将大大改善数仓的分 层管理与应用支撑效率,业务将变得“定义即可见”,也将极大地提升数据的价值。 参考资料 Doris文档和源码 Apache Kylin VS Apache Doris 作者简介 朱良,美团外卖数据仓库工程师。 凯森,美团大数据工程师,Apache0 码力 | 8 页 | 429.42 KB | 1 年前3Doris的数据导入机制以及原子性保证
Doris 内部事务id,用来唯一标示一次导入事务 03 Doris 中的导入 03 Doris 中的导入 LABEL 导入任务 的标识 查看对应 导入任务 的执行情 况 用户可以 自定义 防止用户 重复导入 同一批次 数据使用 相同的label Label • 为了保证At-Most-Once 语意, 用户同一批次数据需要使用相同的Label 03 Doris 中的导入0 码力 | 33 页 | 21.95 MB | 1 年前3
共 4 条
- 1