Gerber文件 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Hadoop 迁移到阿里云MaxCompute 技术方案

建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构的逻辑组件关系如下图所示：这些逻辑组件包括：  数据源：数据源包括关系型数据库、日志文件、实时消息等。  数据存储：面向海量数据存储的分布式文件存储服务，支持结构化数据和非结构数据数据存储，我们也常称之为数据湖。如 HDFS、对象存储服务等。  批处理：由于大数据场景必须处理大规模的数据集，批处理往往需要从数据存储中读取大量映射（仅作为对功能定位的映射，不代表对应组件可无缝迁移），以便读者对相关服务的迁移至阿里云大数据产品服务有更好的理解。组件分类 Hadoop 开源组件阿里云产品/产品组件数据存储 HDFS 文件系统对象存储 MaxCompute 存储(仅开放表数据存储) OSS 对象存储 EMR HDFS 批处理 Hadoop MapReduce Hive Spark 模的存储及计算需求，最大可达 EB 级别。同一个 MaxCompute 项目支持企业从创业团队发展到独角兽的数据规模需求；数据分布式存储，多副本冗余，数据存储对外仅开放表的操作接口，不提供文件系统访问接口自研数据存储结构，表数据列式存储，默认高度压缩，后 D k n e P y l w s o u ) ( ( f I w s A n t S B M / ) g p L

0 码力 | 59 页 | 4.33 MB | 1 年前
3
Curve核心组件之mds – 网易数帆

快照克隆服务器MDS各个组件 MDS是中心节点，负责元数据管理、集群状态收集与调度。MDS包含以下几个部分： • Topology: 管理集群的 topo 元数据信息。 • Nameserver: 管理文件的元数据信息。 • Copyset: 副本放置策略。 • Heartbeat: 心跳模块。跟chunkserver进行交互，收集chunkserver上的负载信息、 copyset信息等。 • 通过结合curve的用户系统，LogicalPool可以通过配置限定特定user使用的方式，实现多个租户数据物理隔离（待开发）。TOPOLOGY Topology的实际例子，右侧是topo配置文件：集群有一个物理pool，由3个zone组成，每个zone有1台server。在物理pool上，还创建了一个逻辑pool，逻辑pool使用3个zone，采用 3副本，有100个copyset。 ver2.proto）： • FileInfo: 文件的信息。 • PageFileSegment: segment是给文件分配空间的最小单位。 • PageFileChunkInfo: chunk是数据分片的最小单元。 segment 和 chunk的关系如下图:NAMESERVER Namespace的文件的目录层次关系如右图。文件的元数据以KV的方式存储。 • Key：ParentID

0 码力 | 23 页 | 1.74 MB | 5 月前
3

共 2 条前往

页

Hadoop 迁移阿里 MaxCompute 技术方案 Curve 核心组件 mds 网易数帆

分类

语言

格式

Hadoop 迁移到阿里云MaxCompute 技术方案

Curve核心组件之mds – 网易数帆