6. ClickHouse在众安的实践
数据流转、建模、机器学习任务的全生命周 期管理 • 大规模在线任务监控、自动模型性能监测、 重训练与发布 • 追溯数据血缘,数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧 全生命周期管理 追溯与可重现 洞察平台架构 Why Clickhouse? Clickhosue 性能 高效的数据导入和查询性能 开源 低成本,免费 压缩比 高度的数据压缩比,存储成本更小0 码力 | 28 页 | 4.00 MB | 1 年前3深度揭秘Greenplum开源数据库透明加密
数据备份恢复 GPDB为单独数据库软件 • 非一体机 • 缺少对硬件和系统的控制 潜在风险(一) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 需要登录到系统进行运维 • 可以访问数据库二进制文件 • 可以访问数据库数据文件 • 可以访问预写日志文件 潜在风险(二) GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 • 直接通过Linux自带工具(strings, hexdump)访问 • pg_waldump可以直接读取并显示预写日志 潜在风险(三) GPDB的数据安全 数据需要加密 • 机密数据 • 知识产权保护 • 审计要求 用户数据存在直接暴露的风险 • 非部门员工运维(原厂,主机厂或者合作伙伴) • 事后审计难度很大 • 服务器数据被盗(托管或云部署) 用户的问题 现有解决方案0 码力 | 48 页 | 10.19 MB | 1 年前3TiDB v8.5 中文手册
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 955 7.8.20 TiCDC 支持同步大事务吗?有什么风险吗? · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 955 7.8.21 TiCDC 是否会将有损 = 1 AND (a > 1 OR (a = 1 AND b = 2)) 的过滤条件简化为 a = 1 AND b = 2 #56005 @ghazalfamilyusa – 在选中不优执行计划风险较高的场景中,提高代价模型中全表扫描的代价,使得优化器更倾向于 使用索引 #56012 @terry1purcell 64 – TiDB 支持 MID() 函数的两参数版本,即 MID(str, 15 分钟)。 注意本视频只作为学习参考,如需了解详细的 HTAP 相关内容,请参阅下方的文档内容。 3.4.1 HTAP 适用场景 TiDB HTAP 可以满足企业海量数据的增产需求、降低运维的风险成本、与现有的大数据栈无缝缝合,从而实现 数据资产价值的实时变现。 以下是三种 HTAP 典型适用场景: • 混合负载场景 当将 TiDB 应用于在线实时分析处理的混合负载场景时,开发人员只需要提供一个入口,TiDB0 码力 | 5095 页 | 104.54 MB | 9 月前3TiDB v8.4 中文手册
= 1 AND (a > 1 OR (a = 1 AND b = 2)) 的过滤条件简化为 a = 1 AND b = 2 #56005 @ghazalfamilyusa – 在选中不优执行计划风险较高的场景中,提高代价模型中全表扫描的代价,使得优化器更倾向于 使用索引 #56012 @terry1purcell – TiDB 支持 MID() 函数的两参数版本,即 MID(str, pos) 15 分钟)。 注意本视频只作为学习参考,如需了解详细的 HTAP 相关内容,请参阅下方的文档内容。 3.4.1 HTAP 适用场景 TiDB HTAP 可以满足企业海量数据的增产需求、降低运维的风险成本、与现有的大数据栈无缝缝合,从而实现 数据资产价值的实时变现。 以下是三种 HTAP 典型适用场景: • 混合负载场景 当将 TiDB 应用于在线实时分析处理的混合负载场景时,开发人员只需要提供一个入口,TiDB affectedRows); 更多信息参考删除数据。 4.3.4.1.4 注意事项 • 推荐使用连接池来管理数据库连接,以减少频繁建立和销毁连接所带来的性能开销。 • 为了避免 SQL 注入的风险,推荐使用预处理语句执行 SQL。 169 • 在不涉及大量复杂 SQL 语句的场景下,推荐使用 ORM 框架 (例如:Sequelize、TypeORM 或 Prisma) 来提升你 的开发效率。0 码力 | 5072 页 | 104.05 MB | 9 月前3TiDB v8.2 中文手册
iDB v8.0.0 引入并行 �→ HashAgg 作为实验特性,以进一步提升处理速度。当内存资源不足时,并行 HashAgg �→ 可以将临时排序数据落盘,避免因内存使用过度而导致的 OOM 风险,从而提升查询性能和节点稳定性 �→ 。该功能在 v8.2.0 成为正式功能,并默认开启,用户可以通过tidb_executor_concurrency �→
安全地设置并行 column �→ _types 修改 从 v8.2.0 开始, 默认设 置下, TiDB 不 会收集 类型为 MEDIUMTEXT �→ 和 LONGTEXT �→ 的 列,避 免潜在 的 OOM 风险。 tidb_ �→ enable �→ _ �→ historical �→ _stats 修改 默认值 从 ON 修 改为 OFF,即 默认关 闭历史 统计信 息,避 免潜在 的稳定 性问题。 15 分钟)。 注意本视频只作为学习参考,如需了解详细的 HTAP 相关内容,请参阅下方的文档内容。 3.4.1 HTAP 适用场景 TiDB HTAP 可以满足企业海量数据的增产需求、降低运维的风险成本、与现有的大数据栈无缝缝合,从而实现 数据资产价值的实时变现。 以下是三种 HTAP 典型适用场景: • 混合负载场景 当将 TiDB 应用于在线实时分析处理的混合负载场景时,开发人员只需要提供一个入口,TiDB0 码力 | 4987 页 | 102.91 MB | 9 月前3TiDB v7.1 中文手册
TIFLASH_TABLES 和INFORMATION_SCHEMA.TIFLASH_ �→ SEGMENTS 系统表的查询服务时,不再使用 HTTP 端口,而是使用 gRPC 端口,从而避免 HTTP 服务的安 全风险。 • 支持 LDAP 身份认证 #43580 @YangKeao 从 v7.1.0 起,TiDB 支 持 LDAP 身 份 认 证, 并 提 供 了 两 种 认 证 插 件:authentication_ldap_sasl 分钟)。 注意本视频只作为学习参考,如需了解详细的 HTAP 相关内容,请参阅下方的文档内容。 92 3.4.1 HTAP 适用场景 TiDB HTAP 可以满足企业海量数据的增产需求、降低运维的风险成本、与现有的大数据栈无缝缝合,从而实现 数据资产价值的实时变现。 以下是三种 HTAP 典型适用场景: • 混合负载场景 当将 TiDB 应用于在线实时分析处理的混合负载场景时,开发人员只需要提供一个入口,TiDB affectedRows); 更多信息参考删除数据。 4.3.4.1.4 注意事项 • 推荐使用连接池来管理数据库连接,以减少频繁建立和销毁连接所带来的性能开销。 • 为了避免 SQL 注入的风险,推荐使用预处理语句执行 SQL。 • 在不涉及大量复杂 SQL 语句的场景下,推荐使用 ORM 框架 (例如:Sequelize、TypeORM 或 Prisma) 来提升你 的开发效率。 •0 码力 | 4369 页 | 98.92 MB | 1 年前3TiDB v6.1 中文手册
15 分钟)。 注意本视频只作为学习参考,如需了解详细的 HTAP 相关内容,请参阅下方的文档内容。 3.4.1 HTAP 适用场景 TiDB HTAP 可以满足企业海量数据的增产需求、降低运维的风险成本、与现有的大数据栈无缝缝合,从而实现 数据资产价值的实时变现。 以下是三种 HTAP 典型适用场景: • 混合负载场景 当将 TiDB 应用于在线实时分析处理的混合负载场景时,开发人员只需要提供一个入口,TiDB 预处理语句是一种将多个仅有参数不同的 SQL 语句进行模板化的语句,它让 SQL 语句与参数进行了分离。可 以用它提升 SQL 语句的: • 安全性:因为参数和语句已经分离,所以避免了 SQL 注入攻击的风险。 • 性能:因为语句在 TiDB 端被预先解析,后续执行只需要传递参数,节省了完整 SQL 解析、拼接 SQL 语句 字符串以及网络传输的代价。 在大部分的应用程序中,SQL 语句是可以被枚举的,可以使用有限个 Java 程序而言,可以通过同一个 SQL 来处理带有动态参数的数据查询请求。 将参数拼接到 SQL 语句当中也许是一种方法,但是这可能不是一个好的主意,因为这会给应用程序带来潜在 的 SQL 注入风险。 在处理这类查询时,应该使用PreparedStatement 来替代普通的 Statement。 public ListgetAuthorsByBirthYear(Short 0 码力 | 3572 页 | 84.36 MB | 1 年前3TiDB v5.4 中文手册
用户生成初始密码 集群启动命令增加了 --init 参数,有了该参数,在 TiUP 部署场景,TiUP 会为数据库 root 用户生成一个 初始的强密码,避免 root 用户使用空密码所带来的安全风险,增强数据库的安全性。 用户文档 2.2.2.3 性能 • 持续提升 TiFlash 列式存储引擎和 MPP 计算引擎的稳定性和性能 – 支持将更多函数下推至 MPP 引擎 * 字符串函数 channel 的问题 #31129 • TiKV – 修复 MVCC 删除记录可能不会被 GC 删除的问题 #11217 – 修复悲观事务中 prewrite 请求重试在极少数情况下影响数据一致性的风险 #11187 – 修复 GC 扫描导致的内存溢出 #11410 – 修复当达到磁盘容量满时 RocksDB flush 或 compaction 导致的 panic #11224 43 • 15 分钟)。 注意本视频只作为学习参考,如需了解详细的 HTAP 相关内容,请参阅下方的文档内容。 3.4.1 HTAP 适用场景 TiDB HTAP 可以满足企业海量数据的增产需求、降低运维的风险成本、与现有的大数据栈无缝缝合,从而实现 数据资产价值的实时变现。 以下是三种 HTAP 典型适用场景: • 混合负载场景 当将 TiDB 应用于在线实时分析处理的混合负载场景时,开发人员只需要提供一个入口,TiDB0 码力 | 2852 页 | 52.59 MB | 1 年前3TiDB v6.5 中文手册
码过期策略功能后,用户必须定期修改密码,防止密码长期使用带来的泄露风险,提高密码安全性。 更多信息,请参考用户文档。 • 支持密码重用策略 #38937 @keeplearning20221 TiDB 支持密码重用策略,包括全局级别密码重用策略、账户级别密码重用策略。启用密码重用策略功 能后,用户不能使用最近一段时间使用过的密码或最近几次使用过的密码,以此降低密码的重复使用 带来的泄漏风险,提高密码安全性。 更多信息,请参考用户文档。 PD 节点因异常不可访问,也还可以继续使用 TiDB Dashboard 进行集群诊断。 – 在开放 TiDB Dashboard 到外网时,不用担心 PD 中的特权端口的权限问题,降低集群的安全风险。 更多信息,请参考 TiDB Operator 部署独立的 TiDB Dashboard。 • Performance Overview 面板中新增 TiFlash 和 CDC (Change 分钟)。 注意本视频只作为学习参考,如需了解详细的 HTAP 相关内容,请参阅下方的文档内容。 95 3.4.1 HTAP 适用场景 TiDB HTAP 可以满足企业海量数据的增产需求、降低运维的风险成本、与现有的大数据栈无缝缝合,从而实现 数据资产价值的实时变现。 以下是三种 HTAP 典型适用场景: • 混合负载场景 当将 TiDB 应用于在线实时分析处理的混合负载场景时,开发人员只需要提供一个入口,TiDB0 码力 | 4049 页 | 94.00 MB | 1 年前3TiDB v8.1 中文手册
分钟)。 注意本视频只作为学习参考,如需了解详细的 HTAP 相关内容,请参阅下方的文档内容。 77 3.4.1 HTAP 适用场景 TiDB HTAP 可以满足企业海量数据的增产需求、降低运维的风险成本、与现有的大数据栈无缝缝合,从而实现 数据资产价值的实时变现。 以下是三种 HTAP 典型适用场景: • 混合负载场景 当将 TiDB 应用于在线实时分析处理的混合负载场景时,开发人员只需要提供一个入口,TiDB affectedRows); 更多信息参考删除数据。 4.3.4.1.4 注意事项 • 推荐使用连接池来管理数据库连接,以减少频繁建立和销毁连接所带来的性能开销。 • 为了避免 SQL 注入的风险,推荐使用预处理语句执行 SQL。 • 在不涉及大量复杂 SQL 语句的场景下,推荐使用 ORM 框架 (例如:Sequelize、TypeORM 或 Prisma) 来提升你 的开发效率。 • affectedRows); } }); 更多信息参考删除数据。 155 4.3.4.2.4 注意事项 • 推荐使用连接池来管理数据库连接,以减少频繁建立和销毁连接所带来的性能开销。 • 为了避免 SQL 注入的风险,请在执行 SQL 语句前传递到 SQL 中的值进行转义。 Note mysqljs/mysql 包目前还不支持预处理语句,它只在客户端对值进行转义 (相关 issue: mysqljs/mysql#274)。0 码力 | 4807 页 | 101.31 MB | 1 年前3
共 41 条
- 1
- 2
- 3
- 4
- 5