6. ClickHouse在众安的实践
竞争优势 分析成熟度 洞察与应对 预测与行动 源数据 数据清洗 标准报表 OLAP系统 商务智能(BI) 机器学习建模 人工智能优化 发生了什么? 为什么发生? 什么会发生? 什么是最佳决策? 分析性数据仓库 数据洞察与可视化 数据治理 预测分析与机器学习 CHAPTER 众安集智平台与clickhouse 02 集智平台 X-Brain AI 开放平台 计算框架 Streaming, Flink 离线/实时任务监控 数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入 消 息 中 间 件 模型、 算法 模版 机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台 X-Zatlas 数据可视化平台 模板 X-BI 数据探索平台 图像分类 平台 OCR工具 链 X-Farm 异构数据治理、协同平台 垂直方向行业模板,简化开发过程 • 多语言多runtime支持,Bring your own model • 数据流转、建模、机器学习任务的全生命周 期管理 • 大规模在线任务监控、自动模型性能监测、 重训练与发布 • 追溯数据血缘,数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧 全生命周期管理 追溯与可重现 洞察平台架构 Why Clickhouse0 码力 | 28 页 | 4.00 MB | 1 年前32. 腾讯 clickhouse实践 _2019丁晓坤&熊峰
Replica1Replica1 Shard01 Shard02 Shard03 Load Balancing 一切以用户价值为依归 6 部署与监控管理 1 线性平滑扩容: 扩容: 1.安装新部署新的shard分片机器 2.新shard上创建表结构 3.批量修改当前集群的配置文件增加新的分片 4.名字服务添加节点 一切以用户价值为依归 7 部署与监控管理 1 大批量,少批次 WriteModel BatchSize TGMARS DATA 消息中间件 RDBMS(MYSQL) 数据仓库(TDW) 画像服务 BI服务 查询服务 ETL工具 一切以用户价值为依归 25 业务应用实践 iData 2 • 支持更多的机器学习算法 • 支持explain 查看整个sql 执行计划 • 集群管理 一切以用户价值为依归 Future Thanks 腾讯招聘 腾讯大数据0 码力 | 26 页 | 3.58 MB | 1 年前32. Clickhouse玩转每天千亿数据-趣头条
2:数据方便回溯,数据有问题,方便恢复 3:运维需要简单 4:计算要快,在一个周期内,要完成所有的指标的计算 集群现状 100+台32核128G 部分复杂累时查询30S内完成 集群现状 我们遇到的问题 关于机器的配置 早期集群机器配置16核64G 一块1.7T本地SSD 问题: 1:内存限制,对于一些大的查询会出现内存不够问题 2:存储限制,随着表越来多,磁盘报警不断 3:cpu限制 64G对于一些大表(每天60 虽然有基于磁盘解决方案,但是会影响速度 clickhouse的数据目录还不支持多个数据盘,单块盘的大小限制太大 cpu需要根据实际情况而定 解决: 1:机器的内存推荐128G+ 2:采用软连接的方式,把不同的表分布到不同的盘上面,这样一台机器可以挂载更多的盘 最新版本的”冷热数据分离”特性,曲线救国? 我们遇到的问题 order by (timestamp, eventType) or order (attempt to allocate chunk of 301989888 bytes), maximum: 9.31 GiB 分析: 1:max_memory_usage指定单个SQL查询在该机器上面最大内存使用量 2:除了些简单的SQL,空间复杂度是O(1) 如: select count(1) from table where column=value select column1, column20 码力 | 14 页 | 1.10 MB | 1 年前3蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎
A_temp 全球敏捷运维峰会 广州站 针对ClickHouse的保护机制 1. 被动缓存; 2. 主动缓存; 全球敏捷运维峰会 广州站 ClickHouse集群架构 Ø 虚拟集群最少两台机器在不同的机房; Ø 数据独立,多写,相互不干扰; Ø 数据读取通过应用程序做负载平衡; Ø 灵活创建不同的虚拟集群用于适当的场合; Ø 随时调整服务器,新增/缩减服务器; 分布式: k8s的集群式部署0 码力 | 15 页 | 1.33 MB | 1 年前32. ClickHouse MergeTree原理解析-朱凯
上市 千+ 大 家 用优质的产品和服务 推动企业管理和社会进步 产品服务 l 集团资源管理 l 资产全寿命周期管理 l 集团风险管控 l 企业大数据及商业智能 l 企业云服务 l 智能机器人应用 l 集团IT治理 l …… l 能源产业链 l 区域能源管理 l 能源大数据 l 购售电平台 l …… l 智慧组织 l 智慧城市 l 智慧产业 l …… EDT 企业级大数据平台0 码力 | 35 页 | 13.25 MB | 1 年前34. ClickHouse在苏宁用户画像场景的实践
务数据准备就绪,才能迚行关联查询。 新增戒者修改标签,丌能实时迚行,涉及到 ES文档结构的变化。 ES对资源消耗比较大,属亍豪华型配置。 ES的DSL诧法对用户丌太友好,用户学习成 本高。 Kafka Flink 18 ClickHouse替换ES存储标签数据 ClickHouse Manager负责ClickHouse集群管理、元数据管理以及节点负载协调0 码力 | 32 页 | 1.47 MB | 1 年前3
共 6 条
- 1