数据库 · ClickHouse

ClickHouse是Yandex开源的一个高性能列式数据库管理系统，专为在线分析处理（OLAP）设计，能够使用SQL进行实时数据分析并生成报告。

类型

不限 PDF DOC PPT XLS TXT 其它

费用

不限免费付费 VIP特享

语言

不限中文（简体）中文（繁体）英语法语韩语德语日语俄语意大利语葡萄牙语西班牙语

ClickHouse on Kubernetes

0 码力 | 34 页 | 5.06 MB | 1 年前
3

文档讨论了在Kubernetes上运行ClickHouse的情况，包括其优势、挑战及相关解决方案。Kubernetes作为容器编排平台，能够有效管理分布式应用、分配资源并自动化部署。ClickHouse在Kubernetes上的部署优势包括与其他应用共存、简化管理、快速构建数据仓库以及可移植性。部署过程面临的挑战包括资源配置、持久化、网络和透明度等。通过ClickHouse Operator，可以简化复杂的数据仓库配置，实现一键式管理。文档还介绍了ClickHouse集群的架构、YAML配置文件的使用以及监控和健康检查的实现方式。
ClickHouse on Kubernetes

0 码力 | 29 页 | 3.87 MB | 1 年前
3

文档阐述了在Kubernetes上部署ClickHouse的优势和方法。Kubernetes作为容器编排工具，可以简化分布式应用的部署与资源管理，适合ClickHouse的数据仓库需求。ClickHouse Operator提供了默认配置模板和错误检测功能，尽管目前仍处于测试阶段。文档还介绍了如何通过Kubernetes服务、负载均衡或Ingress连接到ClickHouse集群，并提到了部署过程中可能遇到的挑战，如存储配置、网络设置和资源分配。
8. Continue to use ClickHouse as TSDB

0 码力 | 42 页 | 911.10 KB | 1 年前
3

文档介绍了青云QingCloud选择并继续使用ClickHouse作为时序数据库的背景、当前实现方式及其未来发展方向。ClickHouse通过两种主要实现方式适用于时序数据存储：Column-Orient Model和Time-Series-Orient Model。Column-Orient Model通过CREATE TABLE和MergeTree引擎实现数据存储，并通过 PARTITION BY toYYYYMM(Time) 按时间分区，且根据Name、Time、Age等字段进行排序。
7. UDF in ClickHouse

0 码力 | 29 页 | 1.54 MB | 1 年前
3

本文档介绍了用户定义函数（UDF）在ClickHouse中的概念、开发和应用，特别是在机器学习系统中的实际案例。文档详细描述了Zora框架，该框架通过原生C++实现，支持与ClickHouse、NumPy和Pandas的无缝集成，并提供高性能的算法组件用于机器学习流程。UDF在数据预处理、特征工程和连接识别等方面具有广泛应用。本文还探讨了内联C++在SQL中的使用，以及Funnel自动机函数在行为序列匹配中的应用。
6. ClickHouse在众安的实践

0 码力 | 28 页 | 4.00 MB | 1 年前
3

众安保险在数据查询速度、数据更新效率和灵活性方面面临挑战，通过采用ClickHouse实现实时计算，支持用户灵活定义标签并实时反馈。文档介绍了ClickHouse在百亿级保险数据分析中的应用，包括数据导入、查询性能优化及效果展示。众安集智平台结合多种计算框架和存储系统，构建了大数据、流数据统一建模管理的智能应用平台，支持模型生命周期管理和数据血缘追溯。
5. ClickHouse at Ximalaya for Shanghai Meetup 2019 PDF

0 码力 | 28 页 | 6.87 MB | 1 年前
3

喜马拉雅在2018年5月开始使用ClickHouse进行OLAP业务，主要用于用户行为分析、用户特征分析以及系统监控。ClickHouse选择的原因包括其快速处理能力、线性扩展性、存储原始记录以便故障排查、SQL查询语言支持以及免费开源等特点。其集群架构能够隔离工作负载，每个工作负载使用专门的集群。应用场景包括用户行为路径分析、用户特征分析（如年龄分布、地理位置等）、系统监控（如JMX、JVM指标）以及HDFS日志分析。ClickHouse在测试中展示了良好的性能，支持与Spark和Kafka的集成，满足了喜马拉雅大规模数据分析的需求。
4. ClickHouse在苏宁用户画像场景的实践

0 码力 | 32 页 | 1.47 MB | 1 年前
3

文档介绍了苏宁如何在用户画像场景中使用ClickHouse，并结合RoaringBitmap进行高效的用户画像分析。传统的Elasticsearch在标签导入时间、实时性和资源消耗方面存在痛点，ClickHouse通过其高效的数据处理能力和 Bitmap 技术解决了这些问题，实现了快速标签构建、实时更新和友好查询。新架构带来了速度提升、查询友好性和硬件资源节约，同时支持了高基数查询和精确去重。
3. Sync Clickhouse with MySQL_MongoDB

0 码力 | 38 页 | 7.13 MB | 1 年前
3

文档介绍了Xiaoxin Tech.大数据团队使用ClickHouse进行日常数据同步任务时所面临的挑战和解决方案。主要内容包括：通过PTS（Provider Transform Sinker）框架实现高效的数据同步功能，解决Zookeeper内存溢出问题，优化INNER JOIN操作的性能，以及支持多数据源快速同步到ClickHouse的能力。PTS的配置支持MySQL、MongoDB等多种数据源，并提供字段映射和查询键的定义，能够通过单一配置文件实现新表的同步任务。
2. Clickhouse玩转每天千亿数据-趣头条

0 码力 | 14 页 | 1.10 MB | 1 年前
3

趣头条在处理每天千亿数据时使用ClickHouse遇到机器配置不足、索引优化不佳、Zookeeper压力大等问题。通过调整索引顺序、提升内存、分布式存储、优化Zookeeper配置及合并引擎选择等方法有效解决了数据处理的挑战。
1. Machine Learning with ClickHouse

0 码力 | 64 页 | 1.38 MB | 1 年前
3

文档介绍了如何在ClickHouse中进行机器学习，重点展示了CatBoost模型的集成与应用，包括模型训练、保存、配置及在SQL中的使用。同时，文档还比较了简单线性回归和随机线性回归，指出前者仅支持单因子，而后者支持多因子。示例中通过CatBoost模型预测行程价格，并计算了均方误差（MSE）为3.8519197052953755。文档还提供了相关数据集的下载链接和使用文档。

共 22 条前往

页