• pdf 文档 ClickHouse on Kubernetes

    0 码力 | 34 页 | 5.06 MB | 1 年前
    3
    文档讨论了在Kubernetes上运行ClickHouse的情况,包括其优势、挑战及相关解决方案。Kubernetes作为容器编排平台,能够有效管理分布式应用、分配资源并自动化部署。ClickHouse在Kubernetes上的部署优势包括与其他应用共存、简化管理、快速构建数据仓库以及可移植性。部署过程面临的挑战包括资源配置、持久化、网络和透明度等。通过ClickHouse Operator,可以简化复杂的数据仓库配置,实现一键式管理。文档还介绍了ClickHouse集群的架构、YAML配置文件的使用以及监控和健康检查的实现方式。
  • pdf 文档 ClickHouse on Kubernetes

    0 码力 | 29 页 | 3.87 MB | 1 年前
    3
    文档阐述了在Kubernetes上部署ClickHouse的优势和方法。Kubernetes作为容器编排工具,可以简化分布式应用的部署与资源管理,适合ClickHouse的数据仓库需求。ClickHouse Operator提供了默认配置模板和错误检测功能,尽管目前仍处于测试阶段。文档还介绍了如何通过Kubernetes服务、负载均衡或Ingress连接到ClickHouse集群,并提到了部署过程中可能遇到的挑战,如存储配置、网络设置和资源分配。
  • pdf 文档 8. Continue to use ClickHouse as TSDB

    0 码力 | 42 页 | 911.10 KB | 1 年前
    3
    文档介绍了青云QingCloud选择并继续使用ClickHouse作为时序数据库的背景、当前实现方式及其未来发展方向。ClickHouse通过两种主要实现方式适用于时序数据存储:Column-Orient Model和Time-Series-Orient Model。Column-Orient Model通过CREATE TABLE和MergeTree引擎实现数据存储,并通过 PARTITION BY toYYYYMM(Time) 按时间分区,且根据Name、Time、Age等字段进行排序。
  • pdf 文档 7. UDF in ClickHouse

    0 码力 | 29 页 | 1.54 MB | 1 年前
    3
    本文档介绍了用户定义函数(UDF)在ClickHouse中的概念、开发和应用,特别是在机器学习系统中的实际案例。文档详细描述了Zora框架,该框架通过原生C++实现,支持与ClickHouse、NumPy和Pandas的无缝集成,并提供高性能的算法组件用于机器学习流程。UDF在数据预处理、特征工程和连接识别等方面具有广泛应用。本文还探讨了内联C++在SQL中的使用,以及Funnel自动机函数在行为序列匹配中的应用。
  • pdf 文档 6. ClickHouse在众安的实践

    0 码力 | 28 页 | 4.00 MB | 1 年前
    3
    众安保险在数据查询速度、数据更新效率和灵活性方面面临挑战,通过采用ClickHouse实现实时计算,支持用户灵活定义标签并实时反馈。文档介绍了ClickHouse在百亿级保险数据分析中的应用,包括数据导入、查询性能优化及效果展示。众安集智平台结合多种计算框架和存储系统,构建了大数据、流数据统一建模管理的智能应用平台,支持模型生命周期管理和数据血缘追溯。
  • pdf 文档 5. ClickHouse at Ximalaya for Shanghai Meetup 2019 PDF

    0 码力 | 28 页 | 6.87 MB | 1 年前
    3
    喜马拉雅在2018年5月开始使用ClickHouse进行OLAP业务,主要用于用户行为分析、用户特征分析以及系统监控。ClickHouse选择的原因包括其快速处理能力、线性扩展性、存储原始记录以便故障排查、SQL查询语言支持以及免费开源等特点。其集群架构能够隔离工作负载,每个工作负载使用专门的集群。应用场景包括用户行为路径分析、用户特征分析(如年龄分布、地理位置等)、系统监控(如JMX、JVM指标)以及HDFS日志分析。ClickHouse在测试中展示了良好的性能,支持与Spark和Kafka的集成,满足了喜马拉雅大规模数据分析的需求。
  • pdf 文档 4. ClickHouse在苏宁用户画像场景的实践

    0 码力 | 32 页 | 1.47 MB | 1 年前
    3
    文档介绍了苏宁如何在用户画像场景中使用ClickHouse,并结合RoaringBitmap进行高效的用户画像分析。传统的Elasticsearch在标签导入时间、实时性和资源消耗方面存在痛点,ClickHouse通过其高效的数据处理能力和 Bitmap 技术解决了这些问题,实现了快速标签构建、实时更新和友好查询。新架构带来了速度提升、查询友好性和硬件资源节约,同时支持了高基数查询和精确去重。
  • pdf 文档 3. Sync Clickhouse with MySQL_MongoDB

    0 码力 | 38 页 | 7.13 MB | 1 年前
    3
    文档介绍了Xiaoxin Tech.大数据团队使用ClickHouse进行日常数据同步任务时所面临的挑战和解决方案。主要内容包括:通过PTS(Provider Transform Sinker)框架实现高效的数据同步功能,解决Zookeeper内存溢出问题,优化INNER JOIN操作的性能,以及支持多数据源快速同步到ClickHouse的能力。PTS的配置支持MySQL、MongoDB等多种数据源,并提供字段映射和查询键的定义,能够通过单一配置文件实现新表的同步任务。
  • pdf 文档 2. Clickhouse玩转每天千亿数据-趣头条

    0 码力 | 14 页 | 1.10 MB | 1 年前
    3
    趣头条在处理每天千亿数据时使用ClickHouse遇到机器配置不足、索引优化不佳、Zookeeper压力大等问题。通过调整索引顺序、提升内存、分布式存储、优化Zookeeper配置及合并引擎选择等方法有效解决了数据处理的挑战。
  • pdf 文档 1. Machine Learning with ClickHouse

    0 码力 | 64 页 | 1.38 MB | 1 年前
    3
    文档介绍了如何在ClickHouse中进行机器学习,重点展示了CatBoost模型的集成与应用,包括模型训练、保存、配置及在SQL中的使用。同时,文档还比较了简单线性回归和随机线性回归,指出前者仅支持单因子,而后者支持多因子。示例中通过CatBoost模型预测行程价格,并计算了均方误差(MSE)为3.8519197052953755。文档还提供了相关数据集的下载链接和使用文档。
共 22 条
  • 1
  • 2
  • 3
前往