Hadoop 迁移到阿里云MaxCompute 技术方案
越来越复杂的技术架构和运维成本、平台 的稳定性和安全性、资源的弹性伸缩能力都遇到了瓶颈,严重阻碍了客户数据业务的发展。随着 云计算技术的发展和普及,越来越多的企业客户选择数据上云,在云上构建数据仓库。以云数 仓、云计算为核心的企业服务架构成为新一代大数据建站的主流趋势。MaxCompute 作为云数 仓、云计算的核心引擎,承载了越来越多企业客户的数据业务和数据资产,免运维、低成本、高 度安全和稳定性,让客户的资源更加聚焦在业务开发上,加速业务发展。 2.2 MaxCompute 产品特性 MaxCompute 提供了云原生、多租户的服务架构,在底层大规模计算、存储资源之上预先构建 好了 MaxCompute 计算服务、服务接口,提供了配套的安全管控手段和开发工具管理工具,产 品开箱即用。 功能 MaxCompute 产品组件 特性介绍 数据存储 MaxCompute 表 (基于盘古分布式存储) MaxCompute 专) 有无专线 常用组件(Hive、Spark、Storm、HBase、Flink、Kafa、Impala、Sqoop、Kylin、Flume) 机器配置(CPU 核数、内存大小) 数据量及存储类型 作业量及作业类型(SQL 脚本上传) 调度系统及周期(Pipeline 配置上传) 已有数据应用(如血缘、监控、质量等) 上层应用系统(如帆软0 码力 | 59 页 | 4.33 MB | 1 年前3Curve核心组件之mds – 网易数帆
果在Chunk到复制组之间引入一个CopySet,每个Chunk可以用ChunkID+CopySetID=12个byte。 2. 减少复制组数量:如果一个数据节点存在 256K个复制组,复制组的内存资源占用将会非常恐怖;复制组之 间的通信将会非常复杂,例如复制组内Primary给Secondary定期发送心跳进行探活,在256K个复制组的情况 下,心跳的流量将会非常大;而引入CopySet 存储系统的核心问题,也是 curve 是否能上生产环境的决定因素之一。 • 自动容错保证常见异常(如坏盘、机器宕机)导致的数据丢失不依赖人工处理,可 以自动修复。 • 负载均衡和资源均衡保证集群中的磁盘、cpu、内存等资源的利用率最大化。SCHEDULE Schdedule的具体实现 Coordinator: 调度模块的对外接口。心跳会将 chunkserver上报上来的copyset信息提交给 Coordi0 码力 | 23 页 | 1.74 MB | 5 月前3
共 2 条
- 1