Hadoop 迁移到阿里云MaxCompute 技术方案
基于借助该大数据架构,对 Hadoop 及开源生态组件与阿里云大数据生态产品进行了对比 映射(仅作为对功能定位的映射,不代表对应组件可无缝迁移),以便读者对相关服务的迁移至 阿里云大数据产品服务有更好的理解。 组件分类 Hadoop 开源组件 阿里云产品/产品组件 数据存储 HDFS 文件系统 对象存储 MaxCompute 存储(仅开放表数据存储) OSS 对象存储 EMR 支持外表,将存储在 OSS 对象存储、OTS 表格存储的数 据映射为二维表 支持 Partition、Bucket 的分区、分桶存储 更底层不是 HDFS,是阿里自研的盘古文件系统,但可借 助 HDFS 理解对应的表之下文件的体系结构、任务并发 机制 使用时,存储与计算解耦,不需要仅仅为了存储扩大不必 要的计算资源 SQL MaxCompute SQL TPC-DS 100% 支持,同时语法高度兼容 工具,如 Oozie、Azkaban、Airflow 等工具的工 作流及调度任务进行自动迁移转化,并自动创建为 Dataworks 工作流及调度作业。 5 迁移整体方案及流程 根据迁移工作的内容,我们提供了以下工作方法来保障迁移工作能够科学有序地开展 。 整个迁移工作包含以下几个阶段: Alibaba Cloud MaxCompute 解决方案 20 5.10 码力 | 59 页 | 4.33 MB | 1 年前3Curve核心组件之mds – 网易数帆
。在大规模的存储容量下,会产生大量的Chunk,如此众多的 Chunk,会对元数据的存储、管理产生一定压力。因此引入CopySet的概念,CopySet类似于ceph的pg。CopySet 可以理解为一组复制组,这组复制组的成员关系完全一样。CopySet的概念在文献「Copysets: Reducing the Frequency of Data Loss in Cloud Storage」提出。0 码力 | 23 页 | 1.74 MB | 5 月前3
共 2 条
- 1