云计算&大数据 · Hadoop

Hadoop是一个用于处理大数据的分布式计算框架，它可以在大规模集群上存储和处理数据，并提供了可扩展、可靠和高容错性的数据存储和处理能力。

类型

不限 PDF DOC PPT XLS TXT 其它

费用

不限免费付费 VIP特享

语言

不限中文（简体）中文（繁体）英语法语韩语德语日语俄语意大利语葡萄牙语西班牙语

大数据时代的Intel之Hadoop

0 码力 | 36 页 | 2.50 MB | 1 年前
3

文档介绍了Intel在大数据时代的角色，特别是其Hadoop商业发行版的特点与优势。Intel Hadoop商业发行版提供了经过实际验证的企业级发行版本，确保长期稳定运行，并集成了最新的开源补丁和自行开发的补丁。该发行版通过对HBase的改进和创新，提供实时数据处理功能，并针对企业用户开发了新的平台功能，如跨数据中心的HBase数据库虚拟大表功能和数据库复制及备仇功能。此外，Intel还在Hadoop底层进行了大量优化算法，以提高应用效率和系统性能，并提供了企业必须的管理和监控功能。
MATLAB与Spark/Hadoop相集成：实现大数据的处理和价值挖

0 码力 | 17 页 | 1.64 MB | 1 年前
3

文档介绍了MATLAB与Spark/Hadoop集成实现大数据处理和价值挖掘的方法。文档首先阐述了大数据的四大特征（Volume, Variety, Value, Velocity）及其带来的挑战，并介绍了MATLAB在大数据处理中的功能，如tall数组、并行与分布式计算、内存与数据访问等。同时，文档详细说明了MATLAB与Hadoop和Spark的集成方式，包括访问HDFS、在Spark/Hadoop集群上运行MATLAB代码，并通过汽车传感器数据分析的应用演示展示了其实际应用。
Hadoop Shell 命令

0 码力 | 10 页 | 99.34 KB | 1 年前
3

文档详细阐述了Hadoop Shell命令的使用方法，涵盖了文件和目录操作、权限管理等功能。每个命令的具体用法、参数设置、示例及返回值均被系统地介绍，旨在帮助用户高效管理Hadoop文件系统。
Hadoop 3.0以及未来

0 码力 | 33 页 | 841.56 KB | 1 年前
3

文档介绍了Hadoop的历史发展历程，从2003年至2017年，涵盖了Hadoop 1.0、2.0及3.0的发布和重大事件。详细阐述了Hadoop 3.0的新特性，包括HDFS、YARN、MapReduce及Common组件的改进，如HDFS的更高性能名节点、Erasure Coding的完善，YARN的时态资源配置和调度增强，以及MapReduce的Task层次Native优化。文档还展望了Hadoop未来的发展方向，包括对象存储、更高性能Namenode、锁机制改进及Erasure Coding的完善。
尚硅谷大数据技术之Hadoop（生产调优手册）

0 码力 | 41 页 | 2.32 MB | 1 年前
3

文档详细描述了Hadoop集群的生产环境调优手册，主要涵盖HDFS和YARN的优化与维护。内容包括NameNode故障恢复、集群安全模式与磁盘修复、服务器间数据均衡、集群扩容及缩容、慢盘监控等。通过实际案例和操作步骤，展示了如何处理集群故障、优化性能、配置白名单、执行磁盘均衡任务以及监控慢盘问题。同时，文档还提供了压测方法和结果分析，帮助用户评估集群性能。
大数据集成与Hadoop - IBM

0 码力 | 16 页 | 1.23 MB | 1 年前
3

文档探讨了大数据集成与Hadoop技术的应用与实践，重点介绍了Hadoop在大数据处理中的优势以及其在企业中的应用挑战。文档指出，Hadoop能够支持新流程和架构，帮助企业降低成本、提高收益并实现竞争优势，但其本身并非完整的解决方案，必须依赖大数据集成技术。有效的大数据集成需要弹性、可扩展性、功能性和治理能力，以避免'垃圾进垃圾出'的现象。IBM提出五大最佳实践，包括避免手动编码、采用统一数据集成与治理平台、提供可扩展集成功能、实施世界级数据治理以及强大的管理与操作控制。文档还强调了大数据集成平台的可扩展性要求，支持RDBMS、ETL网格和Hadoop环境的优势，并提出如何平衡不同环境下的数据集成工作负载。
通过Oracle 并行处理集成 Hadoop 数据

0 码力 | 21 页 | 1.03 MB | 1 年前
3

本文详细介绍了如何通过Oracle并行处理集成Hadoop数据，展示了利用表函数实现Hadoop数据访问的方法。通过创建仲裁表和使用高级队列，实现了Hadoop Mapper作业与Oracle表函数的数据交互。该方法避免了数据中间存储，直接将Hadoop数据传递到Oracle查询，提高了效率。包含具体代码示例，展示了启动Mapper作业、数据读取和队列管理的过程。
银河麒麟服务器操作系统V4 Hadoop 软件适配手册

0 码力 | 8 页 | 313.35 KB | 1 年前
3

文档介绍了银河麒麟服务器操作系统V4的Hadoop软件适配情况。该操作系统支持关键行业的服务器应用，具有高安全性和可靠性，兼容主流国产服务器和数据库。Hadoop作为分布式系统框架，通过HDFS提供存储，MapReduce和YARN进行数据计算和资源管理。文档详细描述了Hadoop的环境配置、解压安装、配置文件修改（包括hadoop-env.sh、core-site.xml、hdfs-site.xml等）、集群启动及WordCount测试用例的执行流程。
Hadoop开发指南

0 码力 | 12 页 | 135.94 KB | 1 年前
3

文档详细阐述了Hadoop的开发指南，包括HDFS的基础操作和高级功能。概括包括通过WebHDFS和HttpFS接口进行文件上传、追加、读取和删除操作的具体步骤，以及MapReduce任务的提交方法。文档还介绍了环境变量配置、常用命令的使用以及HDFS的日常运维操作，如重启服务、查看状态和修改文件副本数量等。内容涵盖了Hadoop集群的安装、配置和使用，适合开发人员快速上手Hadoop开发。
Hadoop 迁移到阿里云MaxCompute 技术方案

0 码力 | 59 页 | 4.33 MB | 1 年前
3

本文提出了将Hadoop迁移到阿里云MaxCompute的大数据生态的技术方案，以解决Hadoop在技术架构复杂性、运维成本、稳定性和弹性伸缩方面的局限性。方案通过MaxCompute提供的产品组件和工具，如MMA迁移助手，实现了数据和业务的平滑迁移。迁移过程分为调研评估、试点/全面迁移、并行测试和割接三个阶段，并提供了详细的工具使用说明和最佳实践，确保迁移过程的高效、安全和稳定。

共 14 条前往

页