内容理解 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Hadoop 迁移到阿里云MaxCompute 技术方案

基于借助该大数据架构，对 Hadoop 及开源生态组件与阿里云大数据生态产品进行了对比映射（仅作为对功能定位的映射，不代表对应组件可无缝迁移），以便读者对相关服务的迁移至阿里云大数据产品服务有更好的理解。组件分类 Hadoop 开源组件阿里云产品/产品组件数据存储 HDFS 文件系统对象存储 MaxCompute 存储(仅开放表数据存储) OSS 对象存储 EMR 支持外表，将存储在 OSS 对象存储、OTS 表格存储的数据映射为二维表支持 Partition、Bucket 的分区、分桶存储更底层不是 HDFS，是阿里自研的盘古文件系统，但可借助 HDFS 理解对应的表之下文件的体系结构、任务并发机制使用时，存储与计算解耦，不需要仅仅为了存储扩大不必要的计算资源 SQL MaxCompute SQL TPC-DS 100% 支持，同时语法高度兼容工具，如 Oozie、Azkaban、Airflow 等工具的工作流及调度任务进行自动迁移转化，并自动创建为 Dataworks 工作流及调度作业。 5 迁移整体方案及流程根据迁移工作的内容，我们提供了以下工作方法来保障迁移工作能够科学有序地开展。整个迁移工作包含以下几个阶段： Alibaba Cloud MaxCompute 解决方案 20 5.1

0 码力 | 59 页 | 4.33 MB | 1 年前
3
Curve核心组件之mds – 网易数帆

。在大规模的存储容量下，会产生大量的Chunk，如此众多的 Chunk，会对元数据的存储、管理产生一定压力。因此引入CopySet的概念，CopySet类似于ceph的pg。CopySet 可以理解为一组复制组，这组复制组的成员关系完全一样。CopySet的概念在文献「Copysets: Reducing the Frequency of Data Loss in Cloud Storage」提出。

0 码力 | 23 页 | 1.74 MB | 5 月前
3

共 2 条前往

页

Hadoop 迁移阿里 MaxCompute 技术方案 Curve 核心组件 mds 网易数帆

分类

语言

格式

Hadoop 迁移到阿里云MaxCompute 技术方案

Curve核心组件之mds – 网易数帆