机器学习 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

6. ClickHouse在众安的实践

竞争优势分析成熟度洞察与应对预测与行动源数据数据清洗标准报表 OLAP系统商务智能（BI）机器学习建模人工智能优化发生了什么？为什么发生？什么会发生？什么是最佳决策？分析性数据仓库数据洞察与可视化数据治理预测分析与机器学习 CHAPTER 众安集智平台与clickhouse 02 集智平台 X-Brain AI 开放平台计算框架 Streaming, Flink 离线/实时任务监控数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入消息中间件模型、算法模版机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台 X-Zatlas 数据可视化平台模板 X-BI 数据探索平台图像分类平台 OCR工具链 X-Farm 异构数据治理、协同平台垂直方向行业模板，简化开发过程 • 多语言多runtime支持，Bring your own model • 数据流转、建模、机器学习任务的全生命周期管理 • 大规模在线任务监控、自动模型性能监测、重训练与发布 • 追溯数据血缘，数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧全生命周期管理追溯与可重现洞察平台架构 Why Clickhouse

0 码力 | 28 页 | 4.00 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

Replica1Replica1 Shard01 Shard02 Shard03 Load Balancing 一切以用户价值为依归 6 部署与监控管理 1 线性平滑扩容：扩容： 1.安装新部署新的shard分片机器 2.新shard上创建表结构 3.批量修改当前集群的配置文件增加新的分片 4.名字服务添加节点一切以用户价值为依归 7 部署与监控管理 1 大批量，少批次 WriteModel BatchSize TGMARS DATA 消息中间件 RDBMS(MYSQL) 数据仓库(TDW) 画像服务 BI服务查询服务 ETL工具一切以用户价值为依归 25 业务应用实践 iData 2 • 支持更多的机器学习算法 • 支持explain 查看整个sql 执行计划 • 集群管理一切以用户价值为依归 Future Thanks 腾讯招聘腾讯大数据

0 码力 | 26 页 | 3.58 MB | 1 年前
3
2. Clickhouse玩转每天千亿数据-趣头条

2：数据方便回溯，数据有问题，方便恢复 3：运维需要简单 4：计算要快，在一个周期内，要完成所有的指标的计算集群现状 100+台32核128G 部分复杂累时查询30S内完成集群现状我们遇到的问题关于机器的配置早期集群机器配置16核64G 一块1.7T本地SSD 问题： 1：内存限制，对于一些大的查询会出现内存不够问题 2：存储限制，随着表越来多，磁盘报警不断 3：cpu限制 64G对于一些大表(每天60 虽然有基于磁盘解决方案，但是会影响速度 clickhouse的数据目录还不支持多个数据盘，单块盘的大小限制太大 cpu需要根据实际情况而定解决： 1：机器的内存推荐128G+ 2：采用软连接的方式，把不同的表分布到不同的盘上面，这样一台机器可以挂载更多的盘最新版本的”冷热数据分离”特性，曲线救国? 我们遇到的问题 order by (timestamp, eventType) or order (attempt to allocate chunk of 301989888 bytes), maximum: 9.31 GiB 分析： 1：max_memory_usage指定单个SQL查询在该机器上面最大内存使用量 2：除了些简单的SQL，空间复杂度是O(1) 如: select count(1) from table where column=value select column1, column2

0 码力 | 14 页 | 1.10 MB | 1 年前
3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

A_temp 全球敏捷运维峰会广州站针对ClickHouse的保护机制 1. 被动缓存； 2. 主动缓存；全球敏捷运维峰会广州站 ClickHouse集群架构 Ø 虚拟集群最少两台机器在不同的机房； Ø 数据独立，多写，相互不干扰； Ø 数据读取通过应用程序做负载平衡； Ø 灵活创建不同的虚拟集群用于适当的场合； Ø 随时调整服务器，新增/缩减服务器；分布式： k8s的集群式部署

0 码力 | 15 页 | 1.33 MB | 1 年前
3
2. ClickHouse MergeTree原理解析-朱凯

上市千+ 大家用优质的产品和服务推动企业管理和社会进步产品服务 l 集团资源管理 l 资产全寿命周期管理 l 集团风险管控 l 企业大数据及商业智能 l 企业云服务 l 智能机器人应用 l 集团IT治理 l …… l 能源产业链 l 区域能源管理 l 能源大数据 l 购售电平台 l …… l 智慧组织 l 智慧城市 l 智慧产业 l …… EDT 企业级大数据平台

0 码力 | 35 页 | 13.25 MB | 1 年前
3
4. ClickHouse在苏宁用户画像场景的实践

务数据准备就绪，才能迚行关联查询。  新增戒者修改标签，丌能实时迚行，涉及到 ES文档结构的变化。  ES对资源消耗比较大，属亍豪华型配置。  ES的DSL诧法对用户丌太友好，用户学习成本高。 Kafka Flink 18 ClickHouse替换ES存储标签数据  ClickHouse Manager负责ClickHouse集群管理、元数据管理以及节点负载协调

0 码力 | 32 页 | 1.47 MB | 1 年前
3

共 6 条前往

页

分类

语言

格式

6. ClickHouse在众安的实践

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

2. Clickhouse玩转每天千亿数据-趣头条

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

2. ClickHouse MergeTree原理解析-朱凯

4. ClickHouse在苏宁用户画像场景的实践