6. ClickHouse在众安的实践
JStorm, Spark Streaming, Flink 离线/实时任务监控 数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入 消 息 中 间 件 模型、 算法 模版 机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台 X-Zatlas 数据可视化平台 模板 X-BI 数据探索平台 图像分类 平台 OCR工具 链 多语言多runtime支持,Bring your own model • 数据流转、建模、机器学习任务的全生命周 期管理 • 大规模在线任务监控、自动模型性能监测、 重训练与发布 • 追溯数据血缘,数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧 全生命周期管理 追溯与可重现 洞察平台架构 Why Clickhouse? Clickhosue 性能0 码力 | 28 页 | 4.00 MB | 1 年前34. ClickHouse在苏宁用户画像场景的实践
会造成空间上的浪费,例如 仅存储40亿一个数值也需要477m的空间。也就是说稀疏的Bitmap和稠密的占用空间相 同。通常会使用一种bitmap压缩算法迚行优化。 RoaringBitmap是一种已被业界广泛使用的高效的bitmap压缩算法,使用者包括Spark、 Hive、ElasticSearch、Kylin、Druid、InfluxDB等, 详见:http://roaringbitmap0 码力 | 32 页 | 1.47 MB | 1 年前32. 腾讯 clickhouse实践 _2019丁晓坤&熊峰
DATA 消息中间件 RDBMS(MYSQL) 数据仓库(TDW) 画像服务 BI服务 查询服务 ETL工具 一切以用户价值为依归 25 业务应用实践 iData 2 • 支持更多的机器学习算法 • 支持explain 查看整个sql 执行计划 • 集群管理 一切以用户价值为依归 Future Thanks 腾讯招聘 腾讯大数据0 码力 | 26 页 | 3.58 MB | 1 年前38. Continue to use ClickHouse as TSDB
分析 能力的时序数据库产品 高性能并发读写 • 千万数据点并发实时写入 • 引入辅助索引,加快数据检索 速度 低成本存储 • 列式存储结合高效的编码 • Delta、XOR 等适合时序场景的压缩算法 • 通过 Rollup 功能,对历史数据做聚合,减少数据量 稳定可扩展 • 分布式架构 • 数据多副本存储 • 服务高可用 Thanks For You0 码力 | 42 页 | 911.10 KB | 1 年前32. ClickHouse MergeTree原理解析-朱凯
照 YYYYMMDD日期格式化后的字符形式输出作为分区 ID的取值。 l 使用其它类型 如果分区键取值既不属于整型,也不属于日期 类型,例如String、Float等。则通过128位Hash 算法取其Hash值作为分区ID的取值。 分区目录的命名规则 PartitionID_MinBlockNum_MaxBlockNum_Level • PartitionID 分区ID,无需多说,对于分区ID的规则在上一小节中已0 码力 | 35 页 | 13.25 MB | 1 年前3
共 5 条
- 1