4. ClickHouse在苏宁用户画像场景的实践
4亿多的数据集上,去重计算出6千万整形数值, 非精确去重函数:uniq、uniqHLL12、uniqCombined 精确去重函数:uniqExact、groupBitmap 函数 时长(秒) 去重后个数 误差个数 误差率 uniq(id) 1.554 63195280 155973 0.25% uniqHLL12(id) 1.341 63331662 292355 0.46% uniqCombined(id) 0.25 0.46 0.29 0 0 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 误差率 精确去重计数性能测试 6 ClickHouse在苏宁使用场景 OLAP平台存储引擎 -- 存储时序数据、cube加速数据,应用亍高基数查询、精确去重场景。 运维监控 ClickHouse集成Bitmap 用户画像场景实践 17 用户画像原有的流程及痛点 Hive表 商品数据 ElasticSearch 用户数据 交易数据 HBase Redis 第三方… Spark 用户画像平台 现有的流程: ES中定义标签的大宽表 通过Spark关联各种业务数据,插入到ES大 宽表。 高频查询的画像数据通过后台任务保存到加0 码力 | 32 页 | 1.47 MB | 1 年前3ClickHouse在B站海量数据场景的落地实践
v内核 v日志 v用户行为数据分析 vFuture Work vQ&A ClickHouse在B站 B站ClickHouse应用概况 v 近400个节点,30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括(不限于): Ø ⽇志&Trace分析 Ø ⽤户⾏为分析(包括事件分析,漏⽃分析,路径分析等) Ø 圈⼈定投 Ø ⼴告DMP(包括统计分析,⼈群预估)0 码力 | 26 页 | 2.15 MB | 1 年前32. ClickHouse MergeTree原理解析-朱凯
10多年IT从业经验,精通Java、Nodejs等语言方向 著有: 《企业级大数据平台构建:架构与实现》、 《ClickHouse原理解析与开发实战》(连载写作中) 珠海总部园 区占地面积 6 万平方米 珠海、北京、武汉 3 研发中心 36 个 分支机构 4 多名员工 下属公司 14 年+ 14 上市 千+ 大 家 用优质的产品和服务 推动企业管理和社会进步 产品服务 l 集团资源管理0 码力 | 35 页 | 13.25 MB | 1 年前3
共 3 条
- 1