pdf文档 5. ClickHouse at Ximalaya for Shanghai Meetup 2019 PDF

6.87 MB 28 页 0 评论
语言 格式 评分
英语
.pdf
3
摘要
喜马拉雅在2018年5月开始使用ClickHouse进行OLAP业务,主要用于用户行为分析、用户特征分析以及系统监控。ClickHouse选择的原因包括其快速处理能力、线性扩展性、存储原始记录以便故障排查、SQL查询语言支持以及免费开源等特点。其集群架构能够隔离工作负载,每个工作负载使用专门的集群。应用场景包括用户行为路径分析、用户特征分析(如年龄分布、地理位置等)、系统监控(如JMX、JVM指标)以及HDFS日志分析。ClickHouse在测试中展示了良好的性能,支持与Spark和Kafka的集成,满足了喜马拉雅大规模数据分析的需求。
AI总结
## 《5. ClickHouse at Ximalaya for Shanghai Meetup 2019 PDF》摘要 ### 背景与挑战 - **喜马拉雅需求**:作为中国领先的音频分享平台,需处理海量数据,包括用户行为日志(页面访问、专辑播放、广告点击等)和系统日志。这些数据的分析有助于提升业务ROI。 - **数据分析的复杂性**:如何追踪用户从页面访问到最终购买专辑的漏斗过程?需要高效的OLAP(在线分析处理)工具。 ### 选择ClickHouse的原因 - **高性能**:支持快速查询和线性扩展。 - **灵活性**:存储单条原始记录,便于查询和排查问题。 - **SQL支持**:内置强大的SQL支持。 - **资源分离**:通过多集群实现不同工作负载的隔离。 - **开源与成本**:免费且开源,支持多协议(JDBC、CSV)。 ### ClickHouse的主要应用场景 - **用户行为分析**: - “魔镜”功能:分析用户特征(如年龄、兴趣、职业)。 - 漏斗分析:追踪用户从访问到购买的路径。 - 保留分析:了解用户留存情况。 - **监控**: - 应用监控:跟踪JMX、JVM指标。 - 基础设施监控:分析HDFS审计日志,查看目录访问情况。 ### ClickHouse集成与评估 - **集成方式**: - 与Spark无缝集成:通过DataFrame直接插入ClickHouse。 -Spark 分区数与ClickHouse服务器数匹配,可优化插入性能。 - **评估测试**: - 测试环境:4节点集群,每节点配置为6核心、64GB内存。 - 场景:处理110亿条页面访问日志,与12亿条用户特征记录关联。 - 结果:插入性能在JDBC和CSV格式下接近。 ### ClickHouse优化与应用 - **漏斗分析优化**:通过ClickHouse快速生成漏斗步骤,支持高效的过滤和分组。 - **时间序列数据应用**:监控Kafka数据,跟踪每个Kafka代理的输入字节数。 ### Wish List(需求清单) - 更高效的数据插入方法。 - 优化过滤条件生成,提升查询效率。 ### 总结 - **ClickHouse优势**:为喜马拉雅提供了高效的数据分析解决方案。 - **应用价值**:支持用户行为分析、监控和基础设施管理。 - **未来需求**:希望进一步优化插入性能和查询效率。 ### 具体数据展示 - **漏斗分析示例**:展示单个用户每天访问的页面数量,avg. 日记数量,avg.aktivitätsrate等。 - **Kafka集群监控**:详细监控每个Kafka代理的输入字节数。 --- 以上是文档内容的简要总结,涵盖了ClickHouse在喜马拉雅的应用场景、优势、集成与优化以及未来的需求。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 16 页请下载阅读 -
文档评分
请文明评论,理性发言.