文本智能处理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

百度智能云 Apache Doris 文档

位操作函数字符串函数条件函数数学函数 JSON解析函数类型转换函数格式转换函数通用函数时间和日期函数 BITMAP函数 HLL函数窗口函数哈希函数 Baidu 百度智能云文档目录 2 SQL手册数据类型 TINYINT数据类型 TINYINT数据类型长度: 长度为1个字节的有符号整型。范围: [-128, 127] 转换: Doris可以自动 +------------------------+ +------------------------+ 1 row in set (0.00 sec) 1 row in set (0.00 sec) Baidu 百度智能云文档 SQL手册 3 BIGINT数据类型 BIGINT数据类型长度: 长度为8个字节的有符号整型。范围: [-9223372036854775808, 9223372036854775807] +------------------------------------------+ 1 row in set (0.05 sec) 1 row in set (0.05 sec) Baidu 百度智能云文档 SQL手册 4 转换: Doris不会自动将DOUBLE类型转换成其他类型。用户可以使用CAST()将其转换成TINYINT, SMALLINT, INT, BIGINT, STRING

0 码力 | 203 页 | 1.75 MB | 1 年前
3
Doris的数据导入机制以及原子性保证

百度资深研发工程师 Doris Committer 01 Doris简介导入的问题 02 03 Doris中的导入使用案例 04 Doris简介 01 • 基于MPP（大规模并行处理）架构的分析型数据库 01 Doris简介 • 性能卓越，PB级别数据毫秒/秒级响应 • 适用于高并发、低延时下的多维分析、实时报表等场景 • 由百度自研，2017年开源，2018年贡献给Apache社区后更名为读写冲突问题原始数据查询导入结果源操作1 操作2 处理失败失败源操作1 操作2 重试成功额外重试处理两次 02 导入的问题 At-Most-Once & At-Least-Once 语义 At-Most-Once语义 At-Least-Once语义失败源操作1 操作2 重试成功重试只处理一次 Exactly-Once语义成功 LOG 02 数据导入总览 • 多源数据加载：HDFS、Kafka、本地数据 • 联邦数据查询：Spark • 多源数据访问：ES、MySQL • 通用协议输出：JDBC、ANSI SQL • 多种数据格式支持：文本、PARQUET、ORC 04 使用案例导入方式 04 使用案例导入方式同步/异步场景接口 Broker Load 异步 HDFS、BOS对象存储 MySQL Routine Load

0 码力 | 33 页 | 21.95 MB | 1 年前
3
Apache Doris 在美团外卖数仓中的应用实践

计算能力。OLAP的实现有MOLAP、ROLAP、HOLAP三种形式，MOLAP以Cube为表现形式，但计算与管理成本较高。ROLAP需要强大的关系型DB引擎支撑。长期以来，由于传统关系型DBMS的数据处理能力有限，所以ROLAP模式受到很大的局限性。随着分布式、并行化技术成熟应用，MP P引擎逐渐表现出强大的高吞吐、低时延计算能力，号称“亿级秒开”的引擎不在少数，ROLAP模式可以得到更好的延伸。应用层模型复杂，根据业务需要以及Kylin生产需要，还要做较多模型预处理。这样在不同的业务场景中，模型的利用率也比较低。 2. Kylin配置过程繁琐，需要配置模型设计，并配合适当的“剪枝”策略，以实现计算成本与查询效率的平衡。 3. 由于MOLAP不支持明细数据的查询，在“汇总+明细”的应用场景中，明细数据需要同步到 DBMS引擎来响应交互，增加了生产的运维成本。 4. 较多的预处理伴随着较高的生产成本。 ROLAP模式的优势同时支持高并发点查询和高吞吐的Ad-hoc查询。同时支持离线批量导入和实时数据导入。同时支持明细和聚合查询。兼容MySQL协议和标准SQL。支持Rollup Table和Rollup Table的智能查询路由。支持较好的多表Join策略和灵活的表达式查询。支持Schema在线变更。支持Range和Hash二级分区。

0 码力 | 8 页 | 429.42 KB | 1 年前
3
SelectDB案例从 ClickHouse 到 Apache Doris

高效为业务赋能，内容库数据平台旨在集成各数据源的数据，整合形成内容数据资产（以指标和标签体系为载体），为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分析服务。数据架构演进 TDW 是腾讯最大的离线数据处理平台，公司内大多数业务的产品报表、运营分析、数据挖掘等的存储和计算都是在 TDW 中进行，内容库数据平台的数据加工链路同样是在腾讯数据仓库 TDW 上构建的。截止目前，内容库数据平台的数据架构已经从数仓层：不支持部分列更新，当上游任一来源表产生延迟，均会造成大宽表延迟，进而导致数据时效性下降。  加速层：不同的标签跟指标特性不同、更新频率也各不相同。由于 ClickHouse 目前更擅长处理宽表场景，无区别将所有数据导入大宽表生成天的分区将造成存储资源的浪费，维护成本也将随之升高。  应用层：ClickHouse 采用的是计算和存储节点强耦合的架构，架构复杂，组件依赖严重，中，接着使用 Flink 来消费 Kafka，并通过主键 ID 构建出一张大宽表，最后将大宽表导入到 Doris 中。如下图所示，来自数仓 N 个表中 ID=1 的 5 条数据，经过 Flink 处理以后，只有一条 ID=1 的数据写入 Doris 中，大大减少 Doris 写入压力。通过以上导入优化方案，极大地降低了存储成本， TDW 无需维护两份冗余的数据，Kafka 也只需

0 码力 | 12 页 | 1.55 MB | 1 年前
3

共 4 条前往

页

百度智能 Apache Doris 文档数据导入机制以及原子保证 Apache Doris 美团 SelectDB 案例 ClickHouse

分类

语言

格式

百度智能云 Apache Doris 文档

Doris的数据导入机制以及原子性保证

Apache Doris 在美团外卖数仓中的应用实践

SelectDB案例从 ClickHouse 到 Apache Doris

分类

语言

格式

百度智能云 Apache Doris 文档

Doris的数据导入机制以及原子性保证

Apache Doris 在美团外卖数仓中的应用实践

SelectDB案例 从 ClickHouse 到 Apache Doris

SelectDB案例从 ClickHouse 到 Apache Doris