Hadoop 概述
Hadoop 概述 本章内容提要 ● Hadoop 的组件 ● HDFS、MapReduce、YARN、ZooKeeper 和 Hive 的角色 ● Hadoop 与其他系统的集成 ● 数据集成与 Hadoop Hadoop 是一种用于管理大数据的基本工具。这种工具满足了企 业在大型数据库(在 Hadoop 中亦称为数据湖)管理方面日益增长的 需求。当 中包含的编程逻辑,它提供了在 Hadoop 群集上横跨多台服务器的可扩展性。为实现资源管理,可考虑将 Hadoop YARN 加入到软件栈中,它是面向大数据应用程序的分布式 操作系统。 ZooKeeper 是另一个 Hadoop Stack 组件,它能通过共享层次名 称空间的数据寄存器(称为 znode),使得分布式进程相互协调工作。 每个 znode 都由一个路径来标识,路径元素由斜杠(/)分隔。 I/O。 1.2 ZooKeeper 是什么 ZooKeeper 是另一项 Hadoop 服务——分布式系统环境下的信 息保管员。ZooKeeper 的集中管理解决方案用于维护分布式系统的 配置。由于 ZooKeeper 用于维护信息,因此任何新节点一旦加入系 统,将从 ZooKeeper 中获取最新的集中式配置。这也使得你只需要 通过 ZooKeeper 的一个客户端改变集中式配置,便能改变分布式系0 码力 | 17 页 | 583.90 KB | 1 年前3這些年,我們一起追的Hadoop
throws SQLException { Connection con = DriverManager.getConnection("jdbc:phoenix:[zookeeper]"); Statement stmt = con.createStatement(); stmt.executeUpdate(0 码力 | 74 页 | 45.76 MB | 1 年前3大数据时代的Intel之Hadoop
1.4.1 关系数据ETL工具 Flume 1.1.0 日志收集工具 Intel Hadoop Manager 2.2 安装、部署、配置、监控、告警和访问控制 Zookeeper 3.4.4 分布式协作服务 Pig 0.9.2 数据流处理语言 Mahout 0.6 数据挖掘 HBase 0.94.1 实时、分布式、高维数据库 Map/Reduce0 码力 | 36 页 | 2.50 MB | 1 年前3尚硅谷大数据技术之Hadoop(入门)
MapReduce 任务进行运 行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开 发专门的 MapReduce 应用,十分适合数据仓库的统计分析。 9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、 名字服务、分布式同步、组服务等。 1.7 推荐系统框架图 推荐系统项目框架 数据库(结构化数据) 文件日志(半结构化数据)0 码力 | 35 页 | 1.70 MB | 1 年前3
共 4 条
- 1