Hadoop 迁移到阿里云MaxCompute 技术方案
建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构 的逻辑组件关系如下图所示: 这些逻辑组件包括: 数据源:数据源包括关系型数据库、日志文件、实时消息等。 数据存储:面向海量数据存储的分布式文件存储服务,支持 结构化数据和非结构数据数据存 储,我们也常称之为数据湖。如 HDFS、对象存储服务等。 批处理:由于大数据场景必须处 数据 对象 供后 续使 用。如 Hive、 MapReduce、Spark 等。 Alibaba Cloud MaxCompute 解决方案 8 实时消息采集:用于实时数据采集,可扩展、高吞吐、可靠的消息服务。如 Kafka。 流处理:对实时数据进行低延迟流式计算的服务。如 Flink、Spark Streaming、Storm 等。 机器学习:满足机器学习工作负载的服务。如当前流行的 10 机器学习 Spark Mlib/ML Tensorflow PAI 机器学习平台 MaxCompute Spark 实时消息采集 Kafka Datahub 日志服务(LogHub 组件) 消息队列 Kafka 流处理 Spark Streaming Flink Storm 实时计算(原流计算) EMR(开源流计算组件)0 码力 | 59 页 | 4.33 MB | 1 年前3
共 1 条
- 1