2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰
部署与监控管理 1 立体监控模型: 监控分层 监控项 敏感度 紧急度 应用层 业务指标,数据异常 低 高 服务层 错误日志 中 中 请求指标 扫描详情 响应耗时 物理层 磁盘IO, 持续负载,流量 高 低 一切以用户价值为依归 业务应用实践 iData 14 2 一切以用户价值为依归 15 业务应用实践 iData 2 一切以用户价值为依归 l 游戏数据分析的业务背景0 码力 | 26 页 | 3.58 MB | 1 年前36. ClickHouse在众安的实践
erver占用核约2-5,导入速率=280mb/s 22 ClickHouse 百亿数据性能测试与优化 • 数据查询 4.48 5.56 4.71 8.64 18.6 250.57 场景 1 场景 2 场景 3 场景 4 场景 5 时间 s 时间(冷数据)s 一些典型查询的性能 测试1:手机号非空&健康险365天保费>100的用户车险总保费分布情况 Elapsed Processed 2.08GB/s 1.77GiB 测试2:健康险365天保费>100的用户前一年保费分布情况 Elapsed Processed rows Throughput Peak memory 5.567s 215.26 million, 16.86GB 38.67millon/s, 3.03GB/s 2.46GiB 26 ClickHouse 百亿数据性能测试与优化 • 场景5涉及到全表百亿行 Second run Elapsed ~250s ~18s ReadBytes 4.2GiB ~0GiB IOWait >205.084s 0.001s 27 ClickHouse 百亿数据性能测试与优化 • 性能瓶颈在硬盘io,实验验证 • 数据分布在三台服务器上 • 执行涉及到全表数据的查询(cold data,从硬盘读取),处理速度为~24.28million rows/s •0 码力 | 28 页 | 4.00 MB | 1 年前34. ClickHouse在苏宁用户画像场景的实践
2. 特性发布快 3. 软件质量高 4. 物化视图 5. 高基数查询 6. 精确去重计数(count distinct) 3 精确去重计数性能测试 4亿多的数据集上,去重计算出6千万整形数值, 非精确去重函数:uniq、uniqHLL12、uniqCombined 精确去重函数:uniqExact、groupBitmap 函数 29% uniqExact(id) 50.437 63039307 0 0% groupBitmap(id) 7.038 63039307 0 0% 4 精确去重计数性能测试 1.554 1.341 1.613 50.437 7.038 0 10 20 30 40 50 60 时长 结论: • 整形值精确去重场景,groupBitmap 0.29 0 0 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 误差率 精确去重计数性能测试 6 ClickHouse在苏宁使用场景 OLAP平台存储引擎 -- 存储时序数据、cube加速数据,应用亍高基数查询、精确去重场景。 运维监控 -- 实时聚合分析监控数据,主要使用物化视图技术。0 码力 | 32 页 | 1.47 MB | 1 年前3ClickHouse在B站海量数据场景的落地实践
修改表元数据 Ø 表元数据管理 v Yuuni: Ø 屏蔽集群信息 Ø 原⽣JDBC,HTTP接⼜ Ø 读写分离 Ø 动态查询缓存 Ø 流量控制 v 监控管理平台: Ø 统计⼤盘 Ø 回归测试 Ø 接⼊评估 Ø 数据迁移 Ø 数据重平衡 v 交互式分析查询:Superset提供即时查询能⼒ v 离线写⼊服务 (Rider) v 实时写⼊服务 (BSQL/Saber) ClickHouse0 码力 | 26 页 | 2.15 MB | 1 年前32. ClickHouse MergeTree原理解析-朱凯
基于索引粒度,将数据标记成多个小的区间 index_granularity,默认8192 索引数据的生成规则 依照索引粒度生成索引,紧凑存储,惜字如金。 PRIMARY KEY ID 索引的查询过程 假如现在有一份测试数据,共192行记录。其中,主键ID为String类型, ID的取值从A000、A001、A002,按顺序增长,直至A192为止。 MergeTree的索引粒度index_granularity =0 码力 | 35 页 | 13.25 MB | 1 年前3
共 5 条
- 1