5. ClickHouse at Ximalaya for Shanghai Meetup 2019 PDF
6.87 MB
28 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
英语 | .pdf | 3 |
摘要 | ||
喜马拉雅在2018年5月开始使用ClickHouse进行OLAP业务,主要用于用户行为分析、用户特征分析以及系统监控。ClickHouse选择的原因包括其快速处理能力、线性扩展性、存储原始记录以便故障排查、SQL查询语言支持以及免费开源等特点。其集群架构能够隔离工作负载,每个工作负载使用专门的集群。应用场景包括用户行为路径分析、用户特征分析(如年龄分布、地理位置等)、系统监控(如JMX、JVM指标)以及HDFS日志分析。ClickHouse在测试中展示了良好的性能,支持与Spark和Kafka的集成,满足了喜马拉雅大规模数据分析的需求。 | ||
AI总结 | ||
## 《5. ClickHouse at Ximalaya for Shanghai Meetup 2019 PDF》摘要
### 背景与挑战
- **喜马拉雅需求**:作为中国领先的音频分享平台,需处理海量数据,包括用户行为日志(页面访问、专辑播放、广告点击等)和系统日志。这些数据的分析有助于提升业务ROI。
- **数据分析的复杂性**:如何追踪用户从页面访问到最终购买专辑的漏斗过程?需要高效的OLAP(在线分析处理)工具。
### 选择ClickHouse的原因
- **高性能**:支持快速查询和线性扩展。
- **灵活性**:存储单条原始记录,便于查询和排查问题。
- **SQL支持**:内置强大的SQL支持。
- **资源分离**:通过多集群实现不同工作负载的隔离。
- **开源与成本**:免费且开源,支持多协议(JDBC、CSV)。
### ClickHouse的主要应用场景
- **用户行为分析**:
- “魔镜”功能:分析用户特征(如年龄、兴趣、职业)。
- 漏斗分析:追踪用户从访问到购买的路径。
- 保留分析:了解用户留存情况。
- **监控**:
- 应用监控:跟踪JMX、JVM指标。
- 基础设施监控:分析HDFS审计日志,查看目录访问情况。
### ClickHouse集成与评估
- **集成方式**:
- 与Spark无缝集成:通过DataFrame直接插入ClickHouse。
-Spark 分区数与ClickHouse服务器数匹配,可优化插入性能。
- **评估测试**:
- 测试环境:4节点集群,每节点配置为6核心、64GB内存。
- 场景:处理110亿条页面访问日志,与12亿条用户特征记录关联。
- 结果:插入性能在JDBC和CSV格式下接近。
### ClickHouse优化与应用
- **漏斗分析优化**:通过ClickHouse快速生成漏斗步骤,支持高效的过滤和分组。
- **时间序列数据应用**:监控Kafka数据,跟踪每个Kafka代理的输入字节数。
### Wish List(需求清单)
- 更高效的数据插入方法。
- 优化过滤条件生成,提升查询效率。
### 总结
- **ClickHouse优势**:为喜马拉雅提供了高效的数据分析解决方案。
- **应用价值**:支持用户行为分析、监控和基础设施管理。
- **未来需求**:希望进一步优化插入性能和查询效率。
### 具体数据展示
- **漏斗分析示例**:展示单个用户每天访问的页面数量,avg. 日记数量,avg.aktivitätsrate等。
- **Kafka集群监控**:详细监控每个Kafka代理的输入字节数。
---
以上是文档内容的简要总结,涵盖了ClickHouse在喜马拉雅的应用场景、优势、集成与优化以及未来的需求。 |
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余
16 页请下载阅读 -
文档评分