虚拟化平台 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

跨机房部署，实现最低成本的DR 缺点： 1. 不支持大规模的批处理； 2. 支持insert into，但最理想的是消费Kafka；全球敏捷运维峰会广州站 ClickHouse/StarRocks在酒店数据智能平台的架构全球敏捷运维峰会广州站 ClickHouse的全量数据同步流程 1. 清空A_temp表，将最新的数据从Hive通过ETL导入到A_temp表; 2. 全球敏捷运维峰会广州站 ClickHouse集群架构 Ø 虚拟集群最少两台机器在不同的机房； Ø 数据独立，多写，相互不干扰； Ø 数据读取通过应用程序做负载平衡； Ø 灵活创建不同的虚拟集群用于适当的场合； Ø 随时调整服务器，新增/缩减服务器；分布式： k8s的集群式部署全球敏捷运维峰会广州站采用ClickHouse后平台的查询性能 system.query_log表，记录已经 read_rows和read_bytes ：读取行数和大小 result_rows和result_bytes ：结果行数和大小以上信息可以简单对比SQL执行效果全球敏捷运维峰会广州站采用ClickHouse后平台的查询性能全球敏捷运维峰会广州站 ClickHouse应用小结 • 数据导入之前要评估好分区字段； • 数据导入时根据分区做好Order By； • 左右表join的时候要注意数据量的变化；

0 码力 | 15 页 | 1.33 MB | 1 年前
3
6. ClickHouse在众安的实践

成立于2013年，是中国第一家互联网保险公司。 • 互联网保险特点： 1. 场景化 2. 高频化 3. 碎片化 • 今年上半年众安上半年服务用户3.5亿，销售保单33.3亿张。 CHAPTER 报表系统的现状 01 数据分析的最直观表现形式：报表报表≠数据驱动每天被访问超过10次的报表寥寥无几传统报表访问往往是静态的、高聚合、低频、表单式的集智平台可视化交互分析数据加工的链路与数据价值发现竞争优势机器学习建模人工智能优化发生了什么？为什么发生？什么会发生？什么是最佳决策？分析性数据仓库数据洞察与可视化数据治理预测分析与机器学习 CHAPTER 众安集智平台与clickhouse 02 集智平台 X-Brain AI 开放平台计算框架 Hadoop, JStorm, Spark Streaming, Flink 离线/实时任务监控数据、模型存储 Clickhouse, Kylin 数据接入消息中间件模型、算法模版机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台 X-Zatlas 数据可视化平台模板 X-BI 数据探索平台图像分类平台 OCR工具链 X-Farm 异构数据治理、协同平台元数据管理/数据集市数据权限管理 | 大数据、流数据建模 | 数据/模型生命周期管理

0 码力 | 28 页 | 4.00 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

l 为什么选用ClickHouse l 平台在ClickHouse上的使用 16 业务应用实践 iData 2 腾讯游戏数据化驱动服务场景视图： TGlog 服务端采集腾讯游戏服务器腾讯游戏移动客户端微信小游戏 WEB 游戏海外游戏 TDM-SDK 客户端采集特性采集大数据基础 PaaS平台游戏营销活动 Dbbinlog 数据库采集数据库采集 Game DB 数据管理 + 元数据 TDBANK 准实时传输管道 Kafka-Pipeline 实时管道 TDW 数据仓库采集存储大数据应用 PaaS平台数据挖掘与内容推荐 PaaS 精准推荐知识图谱精细化运营 … iData 大数据分析PaaS 实时分析多维分析画像分析 … DataMore 大数据应用PaaS DataMore 任务系统 iData 数据可视化游谱游戏说神秘商店 iData 多维提取 … 游戏数据驱动场景潘多拉社交与功能用户增长服务场景游戏社区微信手Q 渠道投放直播电竞 … 大数据基础PaaS平台 n 标准化、海量数据接入能力 n 实时化、低延时对接数据应用 n 异构化兼容能力大数据应用PaaS服务游戏数据驱动场景

0 码力 | 26 页 | 3.58 MB | 1 年前
3
ClickHouse在B站海量数据场景的落地实践

ClickHouse在B站海量数据场景的落地实践胡甫旺哔哩哔哩OLAP平台目录 vClickHouse在B站 v内核 v日志 v用户行为数据分析 vFuture Work vQ&A ClickHouse在B站 B站ClickHouse应用概况 v 近400个节点，30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括（不限于）： ClickHouse-JDBC 与ClickHouse兼容的 HTTP 接口请求管理/流量控制查询缓存查询分发器查询处理器 ClickHouse 监控管理平台元数据管理库表管理权限管理埋点分析报表平台 HDFS/Hive Kafka/Databus 离线接入 (Rider/Spark/WaterDrop) 实时接入 (BSQL/Saber/Flink & 广告DMP 内容定投内容分析日志&Trace 平台 APM ClickHouse as Service v Berserker数据源管理： Ø 建表 Ø 修改表元数据 Ø 表元数据管理 v Yuuni： Ø 屏蔽集群信息 Ø 原⽣JDBC，HTTP接⼜ Ø 读写分离 Ø 动态查询缓存 Ø 流量控制 v 监控管理平台： Ø 统计⼤盘 Ø 回归测试 Ø 接⼊评估 Ø

0 码力 | 26 页 | 2.15 MB | 1 年前
3
2. ClickHouse MergeTree原理解析-朱凯

ClickHouse MergeTree原理解析朱凯@深圳 2019.10 朱凯远光软件大数据事业部/平台开发部总经理资深架构师，腾讯云TVP专家 10多年IT从业经验，精通Java、Nodejs等语言方向著有: 《企业级大数据平台构建：架构与实现》、《ClickHouse原理解析与开发实战》（连载写作中）珠海总部园区占地面积 6 万平方米珠海、北京、武汉企业云服务 l 智能机器人应用 l 集团IT治理 l …… l 能源产业链 l 区域能源管理 l 能源大数据 l 购售电平台 l …… l 智慧组织 l 智慧城市 l 智慧产业 l …… EDT 企业级大数据平台 BAS区块链企业应用服务平台 ECP 企业云平台服务（咨询、实施、运维、定制开发、系统集成……）面向集团企业面向能源行业面向社会治理型YYYYMMDD格式，则直接按照该整型的字符形式输出作为分区ID的取值。 l 使用日期类型如果分区键取值属于日期类型，或者是能够转换为YYYYMMDD日期格式的整型，则使用按照 YYYYMMDD日期格式化后的字符形式输出作为分区 ID的取值。 l 使用其它类型如果分区键取值既不属于整型，也不属于日期类型，例如String、Float等。则通过128位Hash 算法取其Hash值作为分区ID的取值。

0 码力 | 35 页 | 13.25 MB | 1 年前
3
3. 数仓ClickHouse多维分析应用实践-朱元

需求响应慢 02 数据架构数据同步ck 01 1，基于公司对数据要求为T+1 2. 基于现有开发人员水平及成本因此采用可视化同步工具kettle. 先将oracle数据平台维度信息以及相关主题清单数据同步至clichouse数据仓库 Oracle数据平台 • 通过kettle每天定时导出文件至本地 Etl服务器 • 通过clickhouse- client将文本导入ck数据库一般维度表数据量不大. 目前采用的是引擎Log+字典表(dictionary) 数仓建设 – 主题事实清单表主题事实清单表采用引擎MergeTree. 同步策略: 每日从 oracle数据平台增量同步到ck数仓. 数仓建设 – 对外数据目前对外开放是主题事实清单表+维度表封装成一个视图,类似如下数据展示 + 多维分析采用开源报表系统davinci 地址:

0 码力 | 14 页 | 3.03 MB | 1 年前
3
4. ClickHouse在苏宁用户画像场景的实践

0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 误差率精确去重计数性能测试 6 ClickHouse在苏宁使用场景  OLAP平台存储引擎 -- 存储时序数据、cube加速数据，应用亍高基数查询、精确去重场景。  运维监控 -- 实时聚合分析监控数据，主要使用物化视图技术。  用户画像场景 -- HBase Redis 第三方… Spark 用户画像平台现有的流程：  ES中定义标签的大宽表  通过Spark关联各种业务数据，插入到ES大宽表。  高频查询的画像数据通过后台任务保存到加速层：Hbase 戒者 Redis  实时标签通过Flink计算，然后写入Redis  用户画像平台可以从ES、Hbase、Redis查询数据痛点： to-ch-sql模块，将用户画像查询条件转换为ClickHouse sql诧句  用户画像平台通过Proxy从ClickHouse集群查询标签数据 Spark tag-generate tag-loader MySQL ClickHouse集群 ClickHouse1 ClickHouse Manager HDFS 用户画像平台 ClickHouse2 ClickHouseN to-ch-sql

0 码力 | 32 页 | 1.47 MB | 1 年前
3
2. Clickhouse玩转每天千亿数据-趣头条

我们遇到的问题业务背景基于storm的实时指标的计算存在的问题 1：指标口径(SQL) -> 实时任务 2：数据的回溯 3：稳定性业务背景什么是我们需要的? 1：实时指标SQL化 2：数据方便回溯，数据有问题，方便恢复 3：运维需要简单 4：计算要快，在一个周期内，要完成所有的指标的计算集群现状 100+台32核128G 部分复杂累时查询30S内完成集群现状

0 码力 | 14 页 | 1.10 MB | 1 年前
3

共 8 条前往

页

分类

语言

格式