中心节点架构 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

4. ClickHouse在苏宁用户画像场景的实践

在苏宁用户画像场景的实践二〇一九年十月苏宁科技集团.大数据中心.杨兆辉 1 关亍我  苏宁科技集团大数据中心架构师  曾就职亍中兴通讯10+years ，从事大规模分布式系统研发  10+years C++、Java、Go编程经验，熟悉大数据架构、解决方案  ClickHouse Contributor ES的DSL诧法对用户丌太友好，用户学习成本高。 Kafka Flink 18 ClickHouse替换ES存储标签数据  ClickHouse Manager负责ClickHouse集群管理、元数据管理以及节点负载协调  tag-generate负责标签数据构建，保存到HDFS（MySQL中存储标签配置信息）  tag-loader向ClickHouse发送从HDFS导入标签数据的sql  用户ID字段，表示符合标签表达式的用户ID集合。例如： user_list 8 10 11 12 27 用户画像场景3—用户ID清单—示例画像条件查询SQL 28 用户画像新架构的优势  每个标签的数据可以幵行构建，加快标签数据生产速度。  HDFS文件幵发导入ClickHouse，加快标签数据的就绪速度。  查询请求平均响应时长在2秒以下，复杂查询在10秒内。

0 码力 | 32 页 | 1.47 MB | 1 年前
3
2. ClickHouse MergeTree原理解析-朱凯

朱凯远光软件大数据事业部/平台开发部总经理资深架构师，腾讯云TVP专家 10多年IT从业经验，精通Java、Nodejs等语言方向著有: 《企业级大数据平台构建：架构与实现》、《ClickHouse原理解析与开发实战》（连载写作中）珠海总部园区占地面积 6 万平方米珠海、北京、武汉 3 研发中心 36 个分支机构 4 多名员工下属公司 14 年+

0 码力 | 35 页 | 13.25 MB | 1 年前
3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

构建支撑千亿级数据量的高可用查询引擎演讲人：蔡岳毅全球敏捷运维峰会广州站 1. 为什么选择ClickHouse/StarRocks； 2. ClickHouse/StarRocks的高可用架构； 3. 如何合理的应用ClickHouse的优点，StarRocks 如何来补充ClickHouse 的短板； 4. ClickHouse的调优，运维介绍； 5. 应用总结；全球敏捷运维峰会支持标准的SQL语法，兼容MySql协议； 2. MPP架构，扩缩容非常简单方便； 3. 支持高并发查询； 4. 跨机房部署，实现最低成本的DR 缺点： 1. 不支持大规模的批处理； 2. 支持insert into，但最理想的是消费Kafka；全球敏捷运维峰会广州站 ClickHouse/StarRocks在酒店数据智能平台的架构全球敏捷运维峰会广州站 ClickHouse的全量数据同步流程分区名 FROM A_temp 全球敏捷运维峰会广州站针对ClickHouse的保护机制 1. 被动缓存； 2. 主动缓存；全球敏捷运维峰会广州站 ClickHouse集群架构 Ø 虚拟集群最少两台机器在不同的机房； Ø 数据独立，多写，相互不干扰； Ø 数据读取通过应用程序做负载平衡； Ø 灵活创建不同的虚拟集群用于适当的场合； Ø 随时调整服务器，新增/缩减服务器；

0 码力 | 15 页 | 1.33 MB | 1 年前
3
6. ClickHouse在众安的实践

Clickhouse在众安的应用实践百亿保险数据实时分析探索众安保险数据智能中心蒙强 2019年10月27日众安保险 • 成立于2013年，是中国第一家互联网保险公司。 • 互联网保险特点： 1. 场景化 2. 高频化 3. 碎片化 • 今年上半年众安上半年服务用户3.5亿，销售保单33.3亿张。 CHAPTER 报表系统的现状 01 数据分析的最直观表现形式：报表大规模在线任务监控、自动模型性能监测、重训练与发布 • 追溯数据血缘，数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧全生命周期管理追溯与可重现洞察平台架构 Why Clickhouse? Clickhosue 性能高效的数据导入和查询性能开源低成本，免费压缩比高度的数据压缩比，存储成本更小面向列真正的面向列存储，支持高维度表

0 码力 | 28 页 | 4.00 MB | 1 年前
3
ClickHouse在B站海量数据场景的落地实践

目录 vClickHouse在B站 v内核 v日志 v用户行为数据分析 vFuture Work vQ&A ClickHouse在B站 B站ClickHouse应用概况 v 近400个节点，30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括（不限于）： Ø ⽇志&Trace分析 Ø ⽤户⾏为分析（包括事件分析，漏⽃分析，路径分析等）⼴告DMP（包括统计分析，⼈群预估） Ø 电商交易分析 Ø OGV内容分析 Ø APM (Application Performance Management) 基于ClickHouse的交互式OLAP技术架构 Cluster-01 Cluster-02 Cluster-n 。。。 ClickHouse Yuuni 定制开发的 ClickHouse-JDBC 与ClickHouse兼容的 HTTP

0 码力 | 26 页 | 2.15 MB | 1 年前
3
2. Clickhouse玩转每天千亿数据-趣头条

read only mode”，插入失败分析： clickhouse对zookeeper的依赖还是很重的，有大量的数据需要写到zookeeper上面，数据Part都在 zookeeper上面有个节点与之对应以及表的元数据信息等等. 解决： 1：zookeeper机器的snapshot文件和log文件最好分盘存储(推荐SSD)提高ZK的响应 2：zookeeper的snapshot文件存储盘不低于1T

0 码力 | 14 页 | 1.10 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

一切以用户价值为依归 6 部署与监控管理 1 线性平滑扩容：扩容： 1.安装新部署新的shard分片机器 2.新shard上创建表结构 3.批量修改当前集群的配置文件增加新的分片 4.名字服务添加节点一切以用户价值为依归 7 部署与监控管理 1 大批量，少批次 WriteModel BatchSize RowLengt h QPM IOUtils Partitions FailedInserts

0 码力 | 26 页 | 3.58 MB | 1 年前
3
3. 数仓ClickHouse多维分析应用实践-朱元

演讲人：朱元日期： 2019-10-20 所遇问题目录 CONTENTS 现状背景应用实践 01 数据链路长现状即席查询性能差数据压缩率低需求响应慢 02 数据架构数据同步ck 01 1，基于公司对数据要求为T+1 2. 基于现有开发人员水平及成本因此采用可视化同步工具kettle. 先将oracle数据平台维度信息以及相关主题清单数据同步至clichouse数据

0 码力 | 14 页 | 3.03 MB | 1 年前
3
8. Continue to use ClickHouse as TSDB

引入辅助索引，加快数据检索速度低成本存储 • 列式存储结合高效的编码 • Delta、XOR 等适合时序场景的压缩算法 • 通过 Rollup 功能，对历史数据做聚合，减少数据量稳定可扩展 • 分布式架构 • 数据多副本存储 • 服务高可用 Thanks For You

0 码力 | 42 页 | 911.10 KB | 1 年前
3

共 9 条前往

页

分类

语言

格式

4. ClickHouse在苏宁用户画像场景的实践

2. ClickHouse MergeTree原理解析-朱凯

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

6. ClickHouse在众安的实践

ClickHouse在B站海量数据场景的落地实践

2. Clickhouse玩转每天千亿数据-趣头条

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

3. 数仓ClickHouse多维分析应用实践-朱元

8. Continue to use ClickHouse as TSDB