Hadoop 集群 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

6. ClickHouse在众安的实践

什么是最佳决策？分析性数据仓库数据洞察与可视化数据治理预测分析与机器学习 CHAPTER 众安集智平台与clickhouse 02 集智平台 X-Brain AI 开放平台计算框架 Hadoop, JStorm, Spark Streaming, Flink 离线/实时任务监控数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入消息中间用户id • 事业部 • 入库时间 • first_policy_premium • ... • phone_flag • ha_flag • ... clickhouse集群配置 • 阿里云ECS * 6，生产环境集群 • CPU: • Intel(R) Xeon(R) CPU E5-2682 v4 @ 2.50GH • 12 cores 24 processors • 内存: 96GB ck-loader-mr方式对大数据量场景支持不够友好 • 单次插入分区过多解决方法：使用clickhouse原生insert format csv 配合linux pipline导入 hadoop fs -cat 'hdfs://hadoop-namenode:port/user/hive/user/2013/000000_0' | clickhouse-client --host=127.0.0.1 -- port=10000

0 码力 | 28 页 | 4.00 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

Shard03 Load Balancing 一切以用户价值为依归 6 部署与监控管理 1 线性平滑扩容：扩容： 1.安装新部署新的shard分片机器 2.新shard上创建表结构 3.批量修改当前集群的配置文件增加新的分片 4.名字服务添加节点一切以用户价值为依归 7 部署与监控管理 1 大批量，少批次 WriteModel BatchSize RowLengt h QPM IOUtils Engine & Database 大数据仓库 Hadoop Data Lake 计算引擎 MR & Spark Data Warehouse OLTP Big Data Analysis 数据报表多维聚合 iData大数据分析引擎 TGMars TGSpark & Storage 大数据仓库 Hadoop Data Lake 计算引擎 MR & Spark 如何使用ClickHouse ClickHouse集群 TGMARS DATA 消息中间件 RDBMS(MYSQL) 数据仓库(TDW) 画像服务 BI服务查询服务 ETL工具一切以用户价值为依归 25 业务应用实践 iData 2 • 支持更多的机器学习算法 • 支持explain 查看整个sql 执行计划 • 集群管理一切以用户价值为依归 Future Thanks

0 码力 | 26 页 | 3.58 MB | 1 年前
3
ClickHouse in Production

(Memcached) › Message Broker (Kafka, Amazon SQS) › Coordination system (Zookeeper, etcd) › MapReduce (Hadoop, Spark) › Network File System (S3, HDFS) https://github.com/donnemartin/system-design-primer 6 / (Memcached) › Message Broker (Kafka, Amazon SQS) › Coordination system (Zookeeper, etcd) › MapReduce (Hadoop, Spark) › Network File System (S3, HDFS) › Key-Value Storage (Redis, Aerospike) › Relational DBMS (Memcached) › Message Broker (Kafka, Amazon SQS) › Coordination system (Zookeeper, etcd) › MapReduce (Hadoop, Spark) › Network File System (S3, HDFS) › Key-Value Storage (Redis, Aerospike) › Relational DBMS

0 码力 | 100 页 | 6.86 MB | 1 年前
3
2. Clickhouse玩转每天千亿数据-趣头条

提纲 • 业务背景 • 集群现状 • 我们遇到的问题业务背景基于storm的实时指标的计算存在的问题 1：指标口径(SQL) -> 实时任务 2：数据的回溯 3：稳定性业务背景什么是我们需要的? 1：实时指标SQL化 2：数据方便回溯，数据有问题，方便恢复 3：运维需要简单 4：计算要快，在一个周期内，要完成所有的指标的计算集群现状 100+台32核128G 100+台32核128G 部分复杂累时查询30S内完成集群现状我们遇到的问题关于机器的配置早期集群机器配置16核64G 一块1.7T本地SSD 问题： 1：内存限制，对于一些大的查询会出现内存不够问题 2：存储限制，随着表越来多，磁盘报警不断 3：cpu限制 64G对于一些大表(每天600亿+)的处理，很容易报错，虽然有基于磁盘解决方案，但是会影响速度 clickhouse的数据目录还不支持多个数据盘，单块盘的大小限制太大 background_pool_size 2：一个Insert Request，涉及N个分区的数据，在磁盘上就会生成N个数据目录，merge跟不上 3：一个目录，一个zxid，zookeeper集群的压力大，插入速度严重变慢解决： 1：增大background_pool_size治标不治本 2：设置分区的时候需要思考，数据的特性需要了解我们遇到的问题查询过程中clickhouse-server进程挂掉

0 码力 | 14 页 | 1.10 MB | 1 年前
3
ClickHouse在B站海量数据场景的落地实践

vClickHouse在B站 v内核 v日志 v用户行为数据分析 vFuture Work vQ&A ClickHouse在B站 B站ClickHouse应用概况 v 近400个节点，30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括（不限于）： Ø ⽇志&Trace分析 Ø ⽤户⾏为分析（包括事件分析，漏⽃分析，路径分析等） Ø 日志&Trace 平台 APM ClickHouse as Service v Berserker数据源管理： Ø 建表 Ø 修改表元数据 Ø 表元数据管理 v Yuuni： Ø 屏蔽集群信息 Ø 原⽣JDBC，HTTP接⼜ Ø 读写分离 Ø 动态查询缓存 Ø 流量控制 v 监控管理平台： Ø 统计⼤盘 Ø 回归测试 Ø 接⼊评估 Ø 数据迁移 Ø 数据重平衡 v id做Sharding，查询下推 Future Work Future Work v ClickHouse集群容器化，提升物理集群资源使⽤率 v ClickHouse倒排索引调研与改造，提升⽇志检索性能 v 丰富ClickHouse编码类型，拓展zorder应⽤场景，提升圈选计算性能 v ClickHouse存算分离探索，降低集群扩容成本 Q&A

0 码力 | 26 页 | 2.15 MB | 1 年前
3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

被动缓存； 2. 主动缓存；全球敏捷运维峰会广州站 ClickHouse集群架构 Ø 虚拟集群最少两台机器在不同的机房； Ø 数据独立，多写，相互不干扰； Ø 数据读取通过应用程序做负载平衡； Ø 灵活创建不同的虚拟集群用于适当的场合； Ø 随时调整服务器，新增/缩减服务器；分布式： k8s的集群式部署全球敏捷运维峰会广州站采用ClickHouse后平台的查询性能

0 码力 | 15 页 | 1.33 MB | 1 年前
3
4. ClickHouse在苏宁用户画像场景的实践

Manager负责ClickHouse集群管理、元数据管理以及节点负载协调  tag-generate负责标签数据构建，保存到HDFS（MySQL中存储标签配置信息）  tag-loader向ClickHouse发送从HDFS导入标签数据的sql  to-ch-sql模块，将用户画像查询条件转换为ClickHouse sql诧句  用户画像平台通过Proxy从ClickHouse集群查询标签数据 Spark tag-generate tag-loader MySQL ClickHouse集群 ClickHouse1 ClickHouse Manager HDFS 用户画像平台 ClickHouse2 ClickHouseN to-ch-sql 19 标签数据表定义 20 String Integer Double Date

0 码力 | 32 页 | 1.47 MB | 1 年前
3

共 7 条前往

页

分类

语言

格式

6. ClickHouse在众安的实践

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

ClickHouse in Production

2. Clickhouse玩转每天千亿数据-趣头条

ClickHouse在B站海量数据场景的落地实践

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

4. ClickHouse在苏宁用户画像场景的实践