SelectDB案例 从 ClickHouse 到 Apache Doris
2023/02/20SelectDB 用户案例 导读:腾讯音乐内容库数据平台旨在为应用层提供库存盘点、分群画像、指标分析、标签圈 选等内容分析服务,高效为业务赋能。目前,内容库数据平台的数据架构已经从 1.0 演进到 了 4.0 ,经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层 的初步引入到深度应用,有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等 在业务运营过程中我们需要对包括歌曲、词曲、专辑、艺人在内的内容对象进行全方位分析, 高效为业务赋能,内容库数据平台旨在集成各数据源的数据,整合形成内容数据资产(以指 标和标签体系为载体),为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分 析服务。 数据架构演进 TDW 是腾讯最大的离线数据处理平台,公司内大多数业务的产品报表、运营分析、数据挖 掘等的存储和计算都是在 TDW 的替换、经历了数据架构语义层的初步引 入到深度应用,有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等问题,收 益显著。接下来将为大家分享腾讯音乐内容库数据平台的数据架构演进历程与实践思考。 数据架构 1.0 2 如图所示为数据架构 1.0 架构图,分为数仓层、加速层、应用层三部分,数据架构 1.0 是 一个相对主流的架构,简单介绍一下各层的作用及工作原理: 数仓层:通过 ODS-DWD-DWS0 码力 | 12 页 | 1.55 MB | 1 年前3云原生虚拟数仓PieCloudDB Database产品白皮书
5 6 7 7 8 11 13 15 16 目 录 行 业 背 景 石油是工业的血液,数据是数字经济的“石油”,数据分析则是石油精炼。 随着信息技术的发展,互联网应用的加速普及,人类进入了数字经济时代。进入二十一世纪以后,随着移动互联网技 术、物联网技术、5G等技术的发展,全球数据圈(Global Datasphere)呈指数级递增, IDC预测全球数据圈将于 2 更多机会。早在2019年,Gartner便做出预测:数据库市场的未来在云上 。在2022年首次发布的《数据库中国市场 指南》(Market Guide for DBMS,China)中,Gartner 指出,中国数据库行业将加速增长并逐步向云端迁移,未来 四年,中国数据库行业向公有云迁移的速度将超过全球平均水平。云原生数据库成为大势所趋,各个企业也都在向这 一趋势靠拢。2020 年数据显示,云数据库已占据整体数据库市场 PieCloudDB 整体架构分为三个层次,包括基础设施层、数据处理层及数据应用层。详细阐述如下: 基础设施层 基础设施层为 PieCloudDB 提供计算资源、存储资源和网络资源,PieCloudDB 支持部署在物理服务器、虚拟机以及容 器中,同时也提供 PieCloudDB 公有云 SaaS 服务。 数据处理层 PieCloudDB 核心服务层,提供了并行数据处理能力,拥有元数据节点0 码力 | 17 页 | 2.02 MB | 1 年前3PieCloudDB Database 产品白皮书
PiecloudDB 基于 eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 百岗 行业背景 石油是工业的血液,数据是数字经济的“石油”,数据分析则是石油精炼。 随着信息技术的发展,互联网应用的加速普及,人类进入了数字经济时代。进入二十一世纪以后,随着移动互联网技 术、物联网技术、5G等技术的发展,全球数据圈 (Global Datasphere) 呈指数级递增, IDC预测全球数据圈将于 2 更多机会。早在2019年,Gartner便做出预测: 数据库市场的未来在云上 作。在2022年首次发布的《数据库中国市场 指南》 (Market Guide for DBMS,China) 中,Gartner 指出,中国数据库行业将加速增长并逐步向云端迁移,未来 四年,中国数据库行业向公有云迁移的速度将超过全球平均水平 生数据库成为大势所趋,各个企业也都在向这 一趋势靠拢。2020 年数据显示,云数据库已占据整体数据库市场份 pieCloudDB 整体架构分为三个层次,包括基础设施层、数据处理层及数据应用层。详细阐述如下: 基础设施层为 pieCloudDB 提供计算资源、存储资源和网络资源,PieCloudDB 支持部署在物理服务器、庶拟机以及容 器中,同时也提供 PieCloudDB 公有云 Saa5 服务。 * ”数据处理层 PieCloudDB 核心服务层,提供了并行数据处理能力,拥有元数据节点、计算节点、存储节点以及云原生平台节点等0 码力 | 17 页 | 2.68 MB | 1 年前3TiDB v6.5 中文手册
下,可以在同一个系统中做联机交易处理、实时数据分析,极大地节省企业的成本。 • 数据汇聚、二次加工处理的场景 当前绝大部分企业的业务数据都分散在不同的系统中,没有一个统一的汇总,随着业务的发展,企业 的决策层需要了解整个公司的业务状况以便及时做出决策,故需要将分散在各个系统的数据汇聚在同 一个系统并进行二次加工处理生成 T+0 或 T+1 的报表。传统常见的解决方案是采用 ETL + Hadoop 来完成, notes、6.4.0-DMR release notes。 • 要快速对比 6.1.0 LTS 和 6.5.0 LTS 的关键特性,可以查看TiDB 功能概览中的 v6.1 和 v6.5 列。 • 添加索引加速特性 GA,添加索引的性能约提升为 v6.1.0 的 10 倍。 • TiDB 全局内存控制特性 GA,通过tidb_server_memory_limit 即可管理全局内存阈值。 • 支持高性 倍 (GA) #35983 @benjamin2037 @tangenta TiDB v6.3.0 引入了添加索引加速作为实验特性,提升了添加索引回填过程的速度。该功能在 v6.5.0 正式 GA 并默认打开,预期大表添加索引的性能约提升为 v6.1.0 的 10 倍。添加索引加速适用于单条 SQL 语句 串行添加索引的场景,在多条 SQL 并行添加索引时仅对其中一条添加索引的 SQL 语句生效。0 码力 | 4049 页 | 94.00 MB | 1 年前3TiDB v7.1 中文手册
target="_blank">生成列 �→ (GA)生成列 (Generated Columns) 的值是通过实时计算列定义中的 SQL 表达式得到的。 �→ 该功能将一些应用逻辑推向数据库层,从而提升查询效率。 安全 0 码力 | 4369 页 | 98.92 MB | 1 年前 3TiDB v8.1 中文手册
com/zh/tidb/v8.1/ticdc-client-authentication"> �→ 客户端鉴权(从 v8.1.0 开始引入)TiCDC 支持使用 mTLS(双向传输层安全性协议)或 TiDB 用户名密码进行客户端鉴权。 �→ 该功能允许命令行工具或 OpenAPI 客户端验证与 TiCDC 的连接。 2.2.1 功能详情 2.2.1.1 稳定性 • @CharlesCheung96 在 v8.1.0 中,当使用 TiCDC CLI 或 OpenAPI 时,TiCDC 支持客户端鉴权。你可以配置 TiCDC 要求客户端使用证 书进行鉴权,以实现 mTLS(双向传输层安全性协议)。此外,你还可以使用 TiDB 用户名密码进行客户端 鉴权。 更多信息,请参考用户文档。 37 2.2.2 兼容性变更 注意: 以下为从 v8.0.0 升级至当前版本 (v8.1 Backup & Restore (BR) * 增加 PITR 集成测试用例,覆盖对日志备份与添加索引加速功能的兼容性测试 #51987 @Leavrth * 移除日志备份启动时检查是否存在活动 DDL job 的无效检查 #52733 @Leavrth * 增加测试用例,用于测试 PITR 和添加索引加速之间的兼容性 #51988 @Leavrth * BR 在恢复数据过程中,会清理空的 SST 文件0 码力 | 4807 页 | 101.31 MB | 1 年前3TiDB v8.5 中文手册
4 5.3 5.2 5.1 表达式索引 2 Y Y Y Y Y Y Y E E E E E 列式存储 (TiFlash) Y Y Y Y Y Y Y Y Y Y Y Y 使用 FastScan 加速 OLAP 场景下的查询 Y Y Y Y Y Y E N N N N N RocksDB 引擎 Y Y Y Y Y Y Y Y Y Y Y Y Titan 插件 Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N N N N 添加索引加速 Y Y Y Y Y Y Y N N N N N 元数据锁 Y Y Y Y Y Y N N N N N FLASHBACK CLUSTER Y Y Y Y Y Y Y N N N N N 暂停/恢复 DDL Y Y Y Y Y N N N N N N N TiDB 加速建表 E E E E N N N N N N N N 设置 显示统计信息收集的进度 Y Y Y Y Y N N N N N N N 2.3.9 安全 安全 8.4 8.3 8.2 8.1 7.5 7.1 6.5 6.1 5.4 5.3 5.2 5.1 传输层加密 (TLS) Y Y Y Y Y Y Y Y Y Y Y Y 静态加密 (TDE) Y Y Y Y Y Y Y Y Y Y Y Y 基于角色的访问控制 (RBAC) Y Y Y Y Y Y Y0 码力 | 5095 页 | 104.54 MB | 9 月前3TiDB v8.0 中文手册
@Leavrth 从 TiDB v8.0.0 版本起,BR 快照恢复提速功能正式发布并默认启用。通过采用粗粒度打散 Region 算法、批 量创建库表、降低 SST 文件下载和 Ingest 操作之间的相互影响、加速表统计信息恢复等改进措施,快照 恢复的速度有大幅提升。在实际案例中,单个 TiKV 节点的数据恢复速度稳定在 1.2 GiB/s,并且能够在 1 小时内完成对 100 TiB 数据的恢复。 这意味着即使在高负载环境下,BR key,并支持设置自定义加解密 key。如果升级前数据源配置和迁移任务配置里 使用了加密密码,需参考DM 自定义加解密 key 中的升级步骤进行额外操作。#9492 @D3Hunter • 在之前版本中,启用添加索引加速功能 (tidb_ddl_enable_fast_reorg = ON) 后,编码后的索引键值 ingest 到 TiKV 的过程使用了固定的并发数 (16),并未根据下游 TiKV 的处理能力进行动态调整。从 enable �→ _fast_ �→ create �→ _table 新增 用于控 制是否 开启TiDB 加速建 表。将该 变量的 值设置 为 ON 可 以开启 该功能, 设置为 OFF 关闭 该功能。 默认值 为 OFF。 开启后, 将使 用CREATE �→ �→ TABLE �→ 加速 建表。 46 变量名 修改类型 描述 tidb_load �→ _ �→ binding �→ _0 码力 | 4805 页 | 101.28 MB | 1 年前3πDataCS赋能工业软件创新与实践
计算三者互为增强,全面升级⼤数据系统⾄⼤模型时代 ,赋能⾏业AI场景应用。 具备整体数据平台⽅案,支持多模数据处理(结构化、半结构化 以及非结构化数据),实现数据共享和分析。 软件优化 + 新硬件(FPGA)加速,实现数据全链路的性能飞跃, 让数据存储、SQL查询、向量计算以及机器学习等能⼒全面升级。 @2024 OpenPie. All rights reserved. OpenPie Confidential 问题,具备湖仓⼀体化的能⼒, 用户可根据实际情况去选择合适的数据计算引擎。 灵活可扩展的插件式引擎,组件少⽽精(All in One),提供3种计算引擎、1种 Lakehouse引擎,1个硬件加速器,应对各种场景的计算,同时也兼容Spark、 Flink等计算任务,保留用户的使用习惯。 ⽣态完善,支持主流的开发语⾔和数据科学⼯具,支持多模数据处理(结构化、 半结构化以及非结构化),提供 reserved. OpenPie Confidential P i e C l o u d D B 技 术 突 破 : 数 仓 虚 拟 化 云原⽣存算分离架构 运用元数据-计算-数据分离的三层架构,实现云上存储资源与 计算资源的独立管理。云上计算资源可弹性分配,有查询计 算任务的时候按需启动,按照使用时间和规模计算成本。 eMPP分布式专利技术 在云上,PieCloudDB利用eMPP(elastic0 码力 | 36 页 | 4.25 MB | 1 年前3TiDB v8.4 中文手册
4 5.3 5.2 5.1 表达式索引 2 Y Y Y Y Y Y Y E E E E E 列式存储 (TiFlash) Y Y Y Y Y Y Y Y Y Y Y Y 使用 FastScan 加速 OLAP 场景下的查询 Y Y Y Y Y Y E N N N N N RocksDB 引擎 Y Y Y Y Y Y Y Y Y Y Y Y Titan 插件 Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y Y N N N N N 添加索引加速 Y Y Y Y Y Y Y N N N N N 元数据锁 Y Y Y Y Y Y N N N N N FLASHBACK CLUSTER Y Y Y Y Y Y Y N N N N N 暂停/恢复 DDL Y Y Y Y Y N N N N N N N TiDB 加速建表 E E E E N N N N N N N N 设置 显示统计信息收集的进度 Y Y Y Y Y N N N N N N N 2.3.9 安全 安全 8.4 8.3 8.2 8.1 7.5 7.1 6.5 6.1 5.4 5.3 5.2 5.1 传输层加密 (TLS) Y Y Y Y Y Y Y Y Y Y Y Y 静态加密 (TDE) Y Y Y Y Y Y Y Y Y Y Y Y 基于角色的访问控制 (RBAC) Y Y Y Y Y Y Y0 码力 | 5072 页 | 104.05 MB | 9 月前3
共 72 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8