原子性保证 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Doris的数据导入机制以及原子性保证

Doris 的数据导入事务及原子性保证杨政国百度资深研发工程师 Doris Committer 01 Doris简介导入的问题 02 03 Doris中的导入使用案例 04 Doris简介 01 • 基于MPP（大规模并行处理）架构的分析型数据库 01 Doris简介 • 性能卓越，PB级别数据毫秒/秒级响应 • 适用于高并发、低延时下的多维分析、实时报表等场景 • 频率从天级提升至分钟级 2008 • 进行了通用化改造，开始承接公司内部其他报表系统 • 助力百度统计成为国内最大的中文网站分析工具 2009 • 随百度业务飞速发展，对 Doris的性能、可用性、拓展性进行了全面升级 • 承担百度所有统计报表业务 2012 01 Doris简介 04 05 06 • 全新的数据模型，查询存储效率大幅提升 • MPP框架，支持分布式计算 2013 Doris 中的导入 LABEL 导入任务的标识查看对应导入任务的执行情况用户可以自定义防止用户重复导入同一批次数据使用相同的label Label • 为了保证At-Most-Once 语意，用户同一批次数据需要使用相同的Label 03 Doris 中的导入 Prepared 事务和两阶段提交 • FE 充当协调者 • Prepare 阶段下发任务和写入数据

0 码力 | 33 页 | 21.95 MB | 1 年前
3
百度智能云 Apache Doris 文档

STRING, TIMESTAMP。用户可以使用指数符号来描述DOUBLE 类型，或通过STRING转换获得。 DECIMAL数据类型 DECIMAL数据类型 DECIMAL[M, D] 保证精度的小数类型。M代表一共有多少个有效数字，D代表小数点后最多有多少数字。M的范围是[1,27]，D的范围是[1,9]，另外，M必须要大于等于D的取值。默认取值为decimal[10,0]。 precision: 其中第一条、第二条语句是一样的效果。在不指定目标列时，使用表中的列顺序来作为默认的目标列。第三条、第四条语句表达的意思是一样的，使用列的默认值，来完成数据导入。 2. 向表中一次性导入多行数据其中第一条、第二条语句效果一样，向表中一次性导入两条数据第三条、第四条语句效果已知，使用列的默认值向表中导入两条数据 3. 向表中导入一个查询语句结果 INSERT INSERT INTO INTO 可以用于查询错误的数据：可以查看到具体错误行。 2. 超时时间 INSERT 操作的超时时间由会话变量控制。默认为5分钟。超时则作业会被取消。 3. Label 和原子性 INSERT 操作同样能够保证导入的原子性，可以参阅导入事务和原子性文档。当需要使用作为 insert 操作中的查询部分时，必须指定和部分。 4. 过滤阈值与其他导入方式不同，INSERT 操作不能指定过滤阈值（

0 码力 | 203 页 | 1.75 MB | 1 年前
3
Apache Doris 在美团外卖数仓中的应用实践

Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下，各种数据引擎百花齐放，但由于业务的复杂性与多样性，目前并没有哪个引擎能够适配所有业务场景，因此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数据应用效率最大化，同时兼顾研发、生产与运维成本的最小化，建设持续进步的数仓能力，也欢目前，互联网业务规模变得越来越大，不论是业务生产系统还是日志系统，基本上都是基于Hado op/Spark分布式大数据技术生态来构建数据仓库，然后对数据进行适当的分层、加工、管理。而在数据应用交互层面，由于时效性的要求，数据最终的展现查询还是需要通过DBMS（MySQL）、MOLAP（Kylin）引擎来进行支撑。如下图所示：如果想及时了解Spark、Hadoop或者Hbase相关的文章，欢迎关注微信公共帐号：iteblog_hadoop P引擎逐渐表现出强大的高吞吐、低时延计算能力，号称“亿级秒开”的引擎不在少数，ROLAP模式可以得到更好的延伸。单从业务实际应用考虑，性能在千万量级关联查询现场计算秒开的情况下，已经可以覆盖到很多应用场景，具备应用的可能性。例如：日数据量的ROLAP现场计算，周、月趋势的计算，以及明细数据的浏览都可以较好的应对。 2 / 8 Apache

0 码力 | 8 页 | 429.42 KB | 1 年前
3
SelectDB案例从 ClickHouse 到 Apache Doris

库数据平台的数据架构已经从 1.0 演进到了 4.0 ，经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层的初步引入到深度应用，有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等问题，收益显著。本文将为大家分享腾讯音乐内容库数据平台的数据架构演进历程与实践思考，希望所有读者从文章中有所启发。作者：腾讯音乐内容库数据平台张俊、代凯上构建的。截止目前，内容库数据平台的数据架构已经从 1.0 演进到了 4.0 ，经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层的初步引入到深度应用，有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等问题，收益显著。接下来将为大家分享腾讯音乐内容库数据平台的数据架构演进历程与实践思考。数据架构 1.0 2 如图所示为数据架构 1.0 DataSet，作为逻辑视图从大宽表选取所需的标签与指标，同时可以二次定义衍生的标签与指标。存在的问题：  数仓层：不支持部分列更新，当上游任一来源表产生延迟，均会造成大宽表延迟，进而导致数据时效性下降。  加速层：不同的标签跟指标特性不同、更新频率也各不相同。由于 ClickHouse 目前更擅长处理宽表场景，无区别将所有数据导入大宽表生成天的分区将造成存储资源的浪费，维护成本也将随之升高。

0 码力 | 12 页 | 1.55 MB | 1 年前
3

共 4 条前往

页

Doris 数据导入机制以及原子保证百度智能 Apache 文档 Apache Doris 美团 SelectDB 案例 ClickHouse

分类

语言

格式

Doris的数据导入机制以及原子性保证

百度智能云 Apache Doris 文档

Apache Doris 在美团外卖数仓中的应用实践

SelectDB案例从 ClickHouse 到 Apache Doris

分类

语言

格式

Doris的数据导入机制以及原子性保证

百度智能云 Apache Doris 文档

Apache Doris 在美团外卖数仓中的应用实践

SelectDB案例 从 ClickHouse 到 Apache Doris

SelectDB案例从 ClickHouse 到 Apache Doris