Hadoop 迁移到阿里云MaxCompute 技术方案
MapReduce、Spark 等。 Alibaba Cloud MaxCompute 解决方案 8 实时消息采集:用于实时数据采集,可扩展、高吞吐、可靠的消息服务。如 Kafka。 流处理:对实时数据进行低延迟流式计算的服务。如 Flink、Spark Streaming、Storm 等。 机器学习:满足机器学习工作负载的服务。如当前流行的 Spark MLib/ML、Tensorflow 2.1.3 阿里云大数据组件架构 2.1.4 阿里云大数据与 Hadoop 生态的产品映射 基于借助该大数据架构,对 Hadoop 及开源生态组件与阿里云大数据生态产品进行了对比 映射(仅作为对功能定位的映射,不代表对应组件可无缝迁移),以便读者对相关服务的迁移至 阿里云大数据产品服务有更好的理解。 组件分类 Hadoop 开源组件 阿里云产品/产品组件 数据存储 spark-shell/spark-sql 的交互式),提供原生的 Spark WebUI 供用户查看; * 通过访问 OSS、OTS、database 等外部数据源,实现 更复杂的 ETL 处理,支持对 OSS 非结构化进行处理; * 使用 Spark 面向 MaxCompute 内外部数据开展机器 学习,扩展应用场景; 机器学习 PAI MaxCompute 内建支持的上百种机器学习算法,目前0 码力 | 59 页 | 4.33 MB | 1 年前3Curve核心组件之mds – 网易数帆
MDS各组件详细介绍 Q&A基本架构 • 元数据节点 MDS 管理元数据信息 收集集群状态信息,自动调度 • 数据节点 Chunkserver 数据存储 副本一致性 • 客户端 Client 对元数据增删改查 对数据增删改查 • 快照克隆服务器MDS各个组件 MDS是中心节点,负责元数据管理、集群状态收集与调度。MDS包含以下几个部分: • Topology: 管理集群的 topo 元数据信息。 和非功能需求。 1. 故障域的隔离:比如副本的放置分布在不同机器,不同机架,或是不同的交换机下面。 2. 隔离和共享:不同用户的数据可以实现固定物理资源的隔离和共享。 • pool: 用于实现对机器资源进行物理隔离,server不能跨 Pool交互。运维上,建议以pool为单元进行物理资源的扩 容。 • zone: 故障隔离的基本单元,一般来说属于不同zone的机 器至少是部署在不同的机架,一个server必须归属于一个 本PageFile支持块设备、三副本AppendFile(待开发)支持在线对象存储、AppendECFile(待开发)支持 近线对象存储可以共存。 如上所示LogicalPool与pool为多对一的关系,一个物理pool可以存放各种类型的file。当然由于curve支持 多个pool,可以选择一个logicalPool独享一个pool。 通过结合curve的用户系统,LogicalPoo0 码力 | 23 页 | 1.74 MB | 5 月前3
共 2 条
- 1