时间复杂度 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

2. Clickhouse玩转每天千亿数据-趣头条

建表的时候缺乏深度思考，由于分时指标的特性，我们的表是order by (timestamp, eventType)进行索引的，这样在计算累时指标的时候出现非常耗时(600亿+数据量) 分析：对于累时数据，时间索引基本就失效了，由于timestamp”基数”比较高，对于排在第二位eventType索引，这个时候对数据的过滤就非常有限了，这个时候几乎就要对当天的数据进行全部扫描解决： 1：调整索引的顺序，推荐索引列的基数不要太高 of 301989888 bytes), maximum: 9.31 GiB 分析： 1：max_memory_usage指定单个SQL查询在该机器上面最大内存使用量 2：除了些简单的SQL，空间复杂度是O(1) 如: select count(1) from table where column=value select column1, column2 from table where column=value 等等)，排队请求太多可能会导致插入失败我们遇到的问题关于引擎选择推荐Replicated*MergeTree引擎 1：安全，数据安全，业务安全 2：升级的时候可以做到业务无感知 3：提升查询的并发度广告时间

0 码力 | 14 页 | 1.10 MB | 1 年前
3
6. ClickHouse在众安的实践

储和查询以及分析的压力就会很大，原有系统使用es来保存用户标签数据。保单表用户表用户行为表 ODPS ES 用户标签表痛点 • 数据查询慢：每个查询需要5～10分钟； • 数据更新慢：更新数据可能需要数天时间； • 不灵活：用户有新标签需求时，需要提需求给标签开发人员排期开发需求，开发人员开发完再更新到系统中，这时离需求提出可能已经过去几天，无法及时给到业务人员反馈。思路利用clickh 标签平台 clickhouse 保单表用户表用户行为表数据 • 历史保单数据 join 用户数据 join 用户行为数据 • 100+亿行，50+列 • 用户id • 事业部 • 入库时间 • first_policy_premium • ... • phone_flag • ha_flag • ... clickhouse集群配置 • 阿里云ECS * 6，生产环境集群 • E5-2682 v4 @ 2.50GH • 12 cores 24 processors • 内存: 96GB • 硬盘: 1TB 高效云盘，最大IO吞吐量 140MBps 以事业部、入库时间作双分区导入数据遇到的问题导入效率： • 原有导入数据方式在百亿级数据下会报Too many partitions for single INSERT block的问题 • 数据导入慢

0 码力 | 28 页 | 4.00 MB | 1 年前
3
ClickHouse在B站海量数据场景的落地实践

Map隐式列将每个Key存储为独⽴列 v Map隐式列查询时只读取需要的隐式列 Bulkload v 原⽣写⼊⽅式消耗ClickHouse Server资源，影响查询性能 v 实时写⼊任务长期占⽤资源，故障恢复的时间和运维成本较⾼ v 基于中间存储的Bulkload⽅案降低ClickHouse Server压⼒ Bulkload v 基于中间存储的Bulkload可以降低ClickHouse Server压⼒ v 交互式分析延迟要求 (5秒内)。路径分析 v 选定中⼼事件。 v 按时间窗⼜确定上下游事件。 v 离线Spark与计算出事件路径及相关⽤户id的RBM。 v 离线计算结果导⼊ClickHouse做交互式路径分析。漏斗分析 v 预定义事件漏⽃ v ⽀持各个事件单独设置过滤条件 v 查询时间跨度最⼤⼀个⽉ v 数据按user id做Sharding，查询下推 Future

0 码力 | 26 页 | 2.15 MB | 1 年前
3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

采用ClickHouse后平台的查询性能 system.query_log表，记录已经执行的查询记录 query：执行的详细SQL，查询相关记录可以根据SQL关键字筛选该字段 query_duration_ms：执行时间 memory_usage：占用内存 read_rows和read_bytes ：读取行数和大小 result_rows和result_bytes ：结果行数和大小以上信息可以简单对比SQL执行效果

0 码力 | 15 页 | 1.33 MB | 1 年前
3
8. Continue to use ClickHouse as TSDB

不断收集温度，坐标，方向，速度等指标，优化路线和驾驶方式 ► 上述业务数据特点: ► (1) 数据多 ► (2) 旧数据趋于不变 ► (3) 新数据更有价值 ► (4) 数据总是随时间变化而不断变化 Why we choose it ► 解决方案 ► (1) Row-Orient Database ► (2) Column-Orient Database ► (3) Time-Series-Orient

0 码力 | 42 页 | 911.10 KB | 1 年前
3
4. ClickHouse在苏宁用户画像场景的实践

速层：Hbase 戒者 Redis  实时标签通过Flink计算，然后写入Redis  用户画像平台可以从ES、Hbase、Redis查询数据痛点：  标签导入到ES的时间过长，需要等待各种业务数据准备就绪，才能迚行关联查询。  新增戒者修改标签，丌能实时迚行，涉及到 ES文档结构的变化。  ES对资源消耗比较大，属亍豪华型配置。  ES的DSL诧法对用户丌太友好，用户学习成

0 码力 | 32 页 | 1.47 MB | 1 年前
3

共 6 条前往

页

Clickhouse 玩转每天千亿数据头条 ClickHouse 众安实践海量场景落地蔡岳毅基于 StarRocks 构建支撑数据量可用查询引擎 Continue to use as TSDB 苏宁用户画像

分类

语言

格式

2. Clickhouse玩转每天千亿数据-趣头条

6. ClickHouse在众安的实践

ClickHouse在B站海量数据场景的落地实践

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

8. Continue to use ClickHouse as TSDB

4. ClickHouse在苏宁用户画像场景的实践