ClickHouse在B站海量数据场景的落地实践
基于中间存储的Bulkload受HDFS和⽹络稳定性影响,且传输成本较⾼ v 直达ClickHouse的Bulkload稳定性,性能都更佳 Unique Engine v ⽬标:⽀持UpSert,Delete操作,提升查询性能 v 设计:delete on insert Unique Engine v write-write冲突依靠table level lock控制 v write-merge冲突: Unique 多并发加载优化索引加载速度: 日志 日志 v Elastic To ClickHouse迁移,降本增效 v OTEL标准化⽇志采集 v 统⼀scheme⽀持 日志 v ClickHouse较ES写⼊吞吐量提升近10倍 v ClickHouse存储成本为ES的1/3 日志 v ClickHouse中采⽤分表,统⼀schema的设计 v ⽇志查询采⽤类似ES语法,降低⽤户迁移成本 用户行为数据分析 id做Sharding,查询下推 Future Work Future Work v ClickHouse集群容器化,提升物理集群资源使⽤率 v ClickHouse倒排索引调研与改造,提升⽇志检索性能 v 丰富ClickHouse编码类型,拓展zorder应⽤场景,提升圈选计算性能 v ClickHouse存算分离探索,降低集群扩容成本 Q&A0 码力 | 26 页 | 2.15 MB | 1 年前3蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎
将A_temp rename成 A; 4. 将A_ temp_temp rename成 A_temp; 其他方式: 1. 采用 waterdrop 的方式大幅提升写入速度; 2. 直接读Hdfs文件的方式,但内存波动较大; 全球敏捷运维峰会 广州站 ClickHouse的增量数据同步流程 传统方式: 1. 将最近3个月0 码力 | 15 页 | 1.33 MB | 1 年前32. Clickhouse玩转每天千亿数据-趣头条
等等),排队请求太多可能会导致插入失败 我们遇到的问题 关于引擎选择 推荐Replicated*MergeTree引擎 1:安全,数据安全,业务安全 2:升级的时候可以做到业务无感知 3:提升查询的并发度 广告时间0 码力 | 14 页 | 1.10 MB | 1 年前32. 腾讯 clickhouse实践 _2019丁晓坤&熊峰
n 标准化、海量数据接入能力 n 实时化、低延时对接数据应用 n 异构化兼容能力 大数据应用PaaS服务 游戏数据驱动场景 n 实时干预游戏用户 n 精细化、精准化驱动场景服务 n 提升原有服务的增强效果 n iData大数据分析PaaS 在线实时能力 n iData大数据分析:多维分析,画像分析能力 n DataMore大数据实时决策能力 一切以用户价值为依归 17 业务应用实践0 码力 | 26 页 | 3.58 MB | 1 年前34. ClickHouse在苏宁用户画像场景的实践
parquet格式存储数据。 采用AB表切换方式,避免查询和写入的冲突,标签数据表以日期结尾命名。 通过重建分布式表迚行AB表切换,指向丌同日期的标签数据表。 通过增加标签数据表的副本数,提升幵发性能。 21 用户画像系统常见应用场景 22 丼个栗子: “双11” 就要到了,需要发放10万张家电类优惠券迚行促销: 预估人数 人群画像 用户ID清单 用户画像场景1—预估人数0 码力 | 32 页 | 1.47 MB | 1 年前3
共 5 条
- 1