TiDB中文技术文档
手动执行下线操作 TiKV 节点数量 Store Status — Tombstone store : 下线成功的 TiKV 节点数量 Current storage usage : TiKV 集群存储空间占用率 超过 80% 应考虑添加 TiKV 节点 99% completed_cmds_duration_seconds : 99% pd-server 请求完成时间 小于 5ms average 类型长度,可选的 UNSIGNED 无符号数,如果不加这个标识,则为有符号数 ZEROFILL 补零标识,如果有这个标识,TiDB 会自动给类型增加 UNSIGNED 标识,但是没有做补零的操作 每种类型对存储空间的需求以及最大/最小值如下表所示: 类型 存储空 间 最小值(有符号/无符号) 最大值(有符号/无符号) TINYINT 1 -128 / 0 127 / 255 SMALLINT 2 -32768 -1.175494351E-38、0 和 1.175494351E-38 到 3.402823466E+38。这些是理论限制,基于 IEEE 标准。实际的范围根据硬件或操作系统的不同可能稍微小些。 存储空间以及取值范围 浮点类型 类型定义 基本数据类型 - 103 - 本文档使用 书栈(BookStack.CN) 构建 3. 4. DOUBLE[(M,D)] [UNSIGNED] [ZEROFILL]0 码力 | 444 页 | 4.89 MB | 5 月前3Greenplum Database 管理员指南 6.2.1
上都存储一份完整的数据拷贝,复制表是在 6 版 本新引入的数据分布策略,这里需要特别指出,复制表,因为需要在每个 Instance 上存储一份完整的数据,数据量大的事实表不适合选择复制分布这种分布策略,如果这 么做,将会极大的浪费存储空间,同时,未必会带来性能的改善,对于复制表的理解, 应该仅限于:复制表的存在,等于提前把广播做好了,减少了执行计划的复杂度,对于 一些非常小的表,涉及的业务场景追求极致的性能时才考虑,对于通常的分析型场景, 都是批量数据操作和只读查询操 作,另外,AO表不再维护MVCC信息,可以节省一些存储空间,不仅如此,AO表一般还 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 103 - 会选择压缩存储,将可以大大节省存储空间。不过,AO表不适合单行INSERT操作,这 是强烈建议应该避免的操作。 用的必要,可以跳过该部分内容。 举个例子来说,假如有一张分区表,按照月份来分区,而绝大部分的查询只针对最 近几个月的数据来查询,这样就可以通过外部表分区的方式将早期数据以半离线的状态 存储到 GP 集群之外更廉价的存储空间。当对该表进行查询时,通过分区条件对分区进 行过滤,这样可以避免扫描外部表的分区,而当一些查询需要用到外部表分区的数据时, 数据将被从外部存储读取,其性能跟库内的分区相比会有很大的差异,但数据是在线可0 码力 | 416 页 | 6.08 MB | 1 年前3PieCloudDB Database V2.8 Release Note
60%-95% 的存储空间。 2 l 优化 Block Skipping 实现 JANM 的虚拟索引。对于某些特殊的访问方法,表的数据文件/块已经包 含可以用作索引的信息,通过虚拟索引不仅可以利用这些信息来提高性能,而 且能减少维护开销。 l 简墨 JAMN 相关优化 n 通过 Delte Encoding 优化 JAMN 文件存储空间。 n 支持指定0 码力 | 4 页 | 144.49 KB | 1 年前3TiDB v5.2 中文手册
压缩算法 �→ , #### level5 和 level6 采用 zstd 压缩算法,。 #### no 表示没有压缩,lz4 是速度和压缩比较为中庸的压缩算法,zlib 的压缩比很高,对存储空间比较友 #### 好,但是压缩速度比较慢,压缩的时候需要占用较多的 CPU 资源。不同的机器需要根据 CPU 以及 I/O �→ 资 #### 源情况来配置怎样的压缩方式。例如:如果采用的压 Leader/Region 分布不均衡 PD 的打分机制决定了一般情况下,不同 Store 的 Leader Count 和 Region Count 不能完全说明负载均衡状态,所以 需要从 TiKV 的实际负载或者存储空间占用来判断是否有负载不均衡的状况。 确认 Leader/Region 分布不均衡后,首先观察不同 Store 的打分情况。 如果不同 Store 的打分是接近的,说明 PD 认为此时已经是均衡状态了,可能的原因有: “24”。 此外,目标 TiKV 集群必须有足够空间接收新导入的数据。除了标准硬件配置以外,目标 TiKV 集群的总存储空 间必须大于 数据源大小 × 副本数量 × 2。例如集群默认使用 3 副本,那么总存储空间需为数据源大小的 6 倍以 上。 11.7.4.3 导出数据 使用dumpling 从 MySQL 导出数据,如下: 726 ./bin/dumpling -h 127.0.0.1 -P 33060 码力 | 2259 页 | 48.16 MB | 1 年前3TiDB v5.1 中文手册
�→ , #### level5 和 level6 采用 zstd 压缩算法,。 361 #### no 表示没有压缩,lz4 是速度和压缩比较为中庸的压缩算法,zlib 的压缩比很高,对存储空间比较友 #### 好,但是压缩速度比较慢,压缩的时候需要占用较多的 CPU 资源。不同的机器需要根据 CPU 以及 I/O �→ 资 #### 源情况来配置怎样的压缩方式。例如:如果采用的压 Leader/Region 分布不均衡 PD 的打分机制决定了一般情况下,不同 Store 的 Leader Count 和 Region Count 不能完全说明负载均衡状态,所以 需要从 TiKV 的实际负载或者存储空间占用来判断是否有负载不均衡的状况。 确认 Leader/Region 分布不均衡后,首先观察不同 Store 的打分情况。 如果不同 Store 的打分是接近的,说明 PD 认为此时已经是均衡状态了,可能的原因有: “24”。 此外,目标 TiKV 集群必须有足够空间接收新导入的数据。除了标准硬件配置以外,目标 TiKV 集群的总存储空 间必须大于 数据源大小 × 副本数量 × 2。例如集群默认使用 3 副本,那么总存储空间需为数据源大小的 6 倍以 上。 11.7.4.3 导出数据 使用dumpling 从 MySQL 导出数据,如下: 704 ./bin/dumpling -h 127.0.0.1 -P 33060 码力 | 2189 页 | 47.96 MB | 1 年前3PieCloudDB Database 产品白皮书
每天有数个小的计算任务,需要数个节点 * 每周有一个中等计算任务,需要数十个节点 * 每月有一个大的计算任务,需要数干个节点 面对这些不断变化的业务需求和计算任务,企业产生了更高的需求: * 无限空间: 能够提供无限存储空间, 。 灵活伸编: 随时根据业务需求弹性增加集群和工作节点 * 资源回收: 在集群完成计算任务时,可以进行资源回收,节省成本 充分结合云计算、大规模并行处理技术的云原生虚拟数仓 PieCloudDB 全新的存储引擎 【简黑) pieCloudDB 打造了全新的存储引擎--简墨 (JANM) ,实现了基于对象存储的行列混存结构 。行列混存结合了行存和 列存的优势,允许面向列的压缩方案,压缩率更高,节省存储空间,跳过不必要的列的扫描,提高查询效率; 在读取 少量数据时,提高Cache命中率,减少MO 次数。 pieCloudDB实现了存储中立,支持公有云、私有云、混合云。PieCloudDB 除支持自己的存储格式,还支持部署在存0 码力 | 17 页 | 2.68 MB | 1 年前3云原生虚拟数仓PieCloudDB Database产品白皮书
充分结合云计算、大规模并行处理技术的云原生虚拟数仓 PieCloudDB 应运而生, PieCloudDB 帮助企业摆脱了 PC 架 构的限制,满足云原生数字时代需求,成为更好的选择。 能够提供无限存储空间, 随时根据业务需求弹性增加集群和工作节点 在集群完成计算任务时,可以进行资源回收,节省成本 6 PieCloudDB 云原生虚拟数仓 杭州拓数派科技发展有限公司(又称“Open 用户的实时性需求。 PieCloudDB 打造了全新的存储引擎--简墨(JANM),实现了基于对象存储的行列混存结构。行列混存结合了行存和 列存的优势,允许面向列的压缩方案,压缩率更高,节省存储空间;跳过不必要的列的扫描,提高查询效率;在读取 少量数据时,提高Cache命中率,减少 I/O 次数。 PieCloudDB实现了存储中立,支持公有云、私有云、混合云。PieCloudDB0 码力 | 17 页 | 2.02 MB | 1 年前3TiDB v5.4 中文手册
对计算机资源消耗较高,建议分配 64 GB 以上的内存以及 32 核以上的 CPU,而 且确保 CPU 核数和内存(GB)比为 1:2 以上,以获取最佳性能。 磁盘空间: • Dumpling 需要能够储存整个数据源的存储空间,即可以容纳要导出的所有上游表的空间。计算方式参 考下游数据库所需空间。 • TiDB Lightning 导入期间,需要临时空间来存储排序键值对,磁盘空间需要至少能存储数据源的最大单表。 • 3.3.2.1 目标 TiKV 集群的磁盘空间要求 目标 TiKV 集群必须有足够空间接收新导入的数据。除了标准硬件配置以外,目标 TiKV 集群的总存储空间必须 大于数据源大小 × 副本数量 × 2。例如,集群默认使用 3 副本,那么总存储空间需为数据源大小的 6 倍以上。 公式中的 2 倍可能难以理解,其依据是以下因素的估算空间占用: • 索引会占据额外的空间。 • RocksDB 的空间放大效应。 DDL; • 仅从镜像表同步数据; • 在下游执行 DDL 变更。 196 图 14: dm-online-ddl 这些变化将带来一些好处: • 下游 TiDB 无需创建和同步镜像表,节约相应存储空间和网络传输等开销; • 在分库分表合并场景下,自动忽略各分表镜像表的 RENAME 操作,保证同步正确性。 如果您想深入了解其实现原理,请阅读以下两篇技术博客: • DM 源码阅读系列文章(八)Online0 码力 | 2852 页 | 52.59 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
类型对于数据末尾的空⽩字符将原样保存和处理,但是 CHAR 类型不能满⾜ 这个需求。请参考 CREATE TABLE 命令了解更多相关信息。 使⽤ BIGINT 类型存储 INT 或者 SMALLINT 数值会浪费存储空间。如果数据随时间推移需要扩展,并且数据重新加载⽐较浪费时间,那么在开始的时候就应该考虑使⽤更⼤的数据类型。 4.2 表约束 表约束 udw 表格⽀持 postgresql 的表格约束,拥有 primary、unique 选其中⼏个字段中,需要扫描的数据量很⼩,扫描速度⽐较快。因此,列存储尤其适合在宽表中对部分字段进⾏筛选的场景。 列存储的表必须是追加表(Appendonly table)。 3 压缩 压缩 压缩能够节约存储空间并减少从存储读取的数据⼤⼩,这种⽅法还可以减少磁盘 I/O 量,因此可提⾼查询性能。 4 数据分布 数据分布 UDW表的记录有两种分布策略,分别是哈希分布(DISTRIBUTED BY(key))和随机分布(DISTRIBUTED 130/206 在绝⼤部分传统数据中,索引都能够极⼤地提⾼数据访问速速。然⽽,在像 UDW 数据仓库这样的分布式数据库系统中,索引的使⽤需要更加谨慎。 索引会增加数据库系统的运⾏开销,它们占⽤存储空间并且在数据更新时,需要额外的维护⼯作。请确保查询集合在使⽤您创建的索引后,性能得到了改善(和全表顺序扫描相⽐)。可以使⽤ EXPLAIN 命令来确认索引是否被使⽤。 创建索引时,需要注意下⾯的问题点:0 码力 | 206 页 | 5.35 MB | 1 年前3TiDB v5.3 中文手册
392 �→ , #### level5 和 level6 采用 zstd 压缩算法,。 #### no 表示没有压缩,lz4 是速度和压缩比较为中庸的压缩算法,zlib 的压缩比很高,对存储空间比较友 #### 好,但是压缩速度比较慢,压缩的时候需要占用较多的 CPU 资源。不同的机器需要根据 CPU 以及 I/O �→ 资 #### 源情况来配置怎样的压缩方式。例如:如果采用的压 Leader/Region 分布不均衡 PD 的打分机制决定了一般情况下,不同 Store 的 Leader Count 和 Region Count 不能完全说明负载均衡状态,所以 需要从 TiKV 的实际负载或者存储空间占用来判断是否有负载不均衡的状况。 确认 Leader/Region 分布不均衡后,首先观察不同 Store 的打分情况。 如果不同 Store 的打分是接近的,说明 PD 认为此时已经是均衡状态了,可能的原因有: “24”。 此外,目标 TiKV 集群必须有足够空间接收新导入的数据。除了标准硬件配置以外,目标 TiKV 集群的总存储空 间必须大于 数据源大小 × 副本数量 × 2。例如集群默认使用 3 副本,那么总存储空间需为数据源大小的 6 倍以 上。 11.7.5.3 导出数据 使用dumpling 从 MySQL 导出数据,如下: ./bin/dumpling -h 127.0.0.1 -P 3306 -u0 码力 | 2374 页 | 49.52 MB | 1 年前3
共 27 条
- 1
- 2
- 3