ClickHouse在苏宁用户画像场景的实践
ClickHouse 在苏宁用户画像场景的实践 二〇一九年十月 苏宁科技集团.大数据中心.杨兆辉 1 关亍我 苏宁科技集团大数据中心架构师 曾就职亍中兴通讯10+years ,从事大规模分布式系统研发 10+years C++、Java、Go编程经验,熟悉大数据架构、解决方案 ClickHouse Contributor Github: https://github.com/andyyzh Contents 苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 2 选择ClickHouse的原因 1. 速度快 2. 特性发布快 3. 软件质量高 4. 物化视图 5. 高基数查询 6 实时聚合分析监控数据,主要使用物化视图技术。 用户画像场景 -- 标签数据的存储、用户画像查询引擎。 7 Contents 苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 8 Bitmap位存储和位计算 每个bit位表示一个数字id,对亍40亿个的用户id,只需要40亿bit位, 约477m大小 = (40 码力 | 32 页 | 1.47 MB | 1 年前36. ClickHouse在众安的实践
蒙强 2019年10月27日 众安保险 • 成立于2013年,是中国第一家互联网保险公司。 • 互联网保险特点: 1. 场景化 2. 高频化 3. 碎片化 • 今年上半年众安上半年服务用户3.5亿,销售保单33.3亿张。 CHAPTER 报表系统的现状 01 数据分析的最直观表现形式:报表 报表≠数据驱动 每天被访问超过10次的报表寥寥无几 传统报表访问往往是静态的、高聚合、低频、表单式的 集智平台可视化交互分析 数据加工的链路与数据价值发现 竞争优势 分析成熟度 洞察与应对 预测与行动 源数据 数据清洗 标准报表 OLAP系统 商务智能(BI) 机器学习建模 人工智能优化 发生了什么? 为什么发生? 什么会发生? 什么是最佳决策? 分析性数据仓库 数据洞察与可视化 数据治理 预测分析与机器学习 CHAPTER 众安集智平台与clickhouse 02 我们希望对保单、用户数据进行灵活分析,根据用户标签筛选出符合 要求的客户进行精准营销。 原始保单数据百亿+,用户数据数亿,如果用户标签几百个,数据存 储和查询以及分析的压力就会很大,原有系统使用es来保存用户标签 数据。 保单表 用户表 用户行为表 ODPS ES 用户标签表 痛点 • 数据查询慢:每个查询需要5~10分钟; • 数据更新慢:更新数据可能需要数天时间; • 不灵活:用户有新标0 码力 | 28 页 | 4.00 MB | 1 年前3ClickHouse在B站海量数据场景的落地实践
ClickHouse在B站海量数据场景的落地实践 胡甫旺 哔哩哔哩OLAP平台 目录 vClickHouse在B站 v内核 v日志 v用户行为数据分析 vFuture Work vQ&A ClickHouse在B站 B站ClickHouse应用概况 v 近400个节点,30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括(不限于): Kafka/Databus 离线接入 (Rider/Spark/WaterDrop) 实时接入 (BSQL/Saber/Flink & ClickHouse JDBC) Applications 用户程序 Flink/JDBC/Go/HTTP 标签圈人 。。。 广告DMP 内容定投 内容分析 日志&Trace 平台 APM ClickHouse as Service v Berserker数据源管理: (BSQL/Saber) ClickHouse 监控管理平 台 BSQL/Saber 实时写入服务 Rider 离线写入服务 平台服务 Berserker 数据源管理 交互式 分析查询 Yuuni服务 用户 内核 Map隐式列 v 原⽣Map使⽤Array of Tuple实现 v 原⽣Map查询时需读取⼤量⽆效数据 Map隐式列 v Map隐式列将每个Key存储为独⽴列 v Map隐式列查询时只读取需要的隐式列0 码力 | 26 页 | 2.15 MB | 1 年前32. 腾讯 clickhouse实践 _2019丁晓坤&熊峰
应用实践 丁晓坤 & 熊峰 一切以用户价值为依归 2 • Clickhouse 的部署与监控管理 • Clickhouse 的应用实践 iData 目录 部署与监控管理 一切以用户价值为依归 3 1 4 部署与监控管理 1 高内存,廉价存储: 单机配置: Memory128G CPU核数24 SATA20T,RAID5 万兆网卡 一切以用户价值为依归 5 部署与监控管理 Shard01 Shard02 Shard03 Load Balancing 一切以用户价值为依归 6 部署与监控管理 1 线性平滑扩容: 扩容: 1.安装新部署新的shard分片机器 2.新shard上创建表结构 3.批量修改当前集群的配置文件增加新的分片 4.名字服务添加节点 一切以用户价值为依归 7 部署与监控管理 1 大批量,少批次 WriteModel BatchSize 100000 10k 9 49 413 NO 一切以用户价值为依归 8 部署与监控管理 1 应用监控-业务指标: 一切以用户价值为依归 9 部署与监控管理 1 服务监控-错误日志: 一切以用户价值为依归 10 部署与监控管理 1 服务监控-请求指标: 一切以用户价值为依归 11 部署与监控管理 1 服务监控-扫描详情: 一切以用户价值为依归 12 部署与监控管理 1 服务监控-响应耗时:0 码力 | 26 页 | 3.58 MB | 1 年前38. Continue to use ClickHouse as TSDB
choose it 不断收集CPU、 Memory等系统指标预 测系统未来趋势 不断收集市场变化信 息预测股价涨跌 不断的汇总日成交量从 而制定商业规划 不断收集温度,坐标,方向 ,速度等指标,优化路线和 驾驶方式 ► 上述业务数据特点: ► (1) 数据多 ► (2) 旧数据趋于不变 ► (3) 新数据更有价值 ► (4) 数据总是随时间变化而不断变化 Why we choose0 码力 | 42 页 | 911.10 KB | 1 年前33. 数仓ClickHouse多维分析应用实践-朱元
exceeded 解决:通过在users.xml 配置 max_bytes_before_external_sort max_bytes_before_external_group_by 2. 用户并发量一上来,负载太高 解决:目前是在中间加redis缓存0 码力 | 14 页 | 3.03 MB | 1 年前3
共 6 条
- 1