• pdf 文档 大数据时代的Intel之Hadoop

    0 码力 | 36 页 | 2.50 MB | 1 年前
    3
    文档介绍了Intel在大数据时代的角色,特别是其Hadoop商业发行版的特点与优势。Intel Hadoop商业发行版提供了经过实际验证的企业级发行版本,确保长期稳定运行,并集成了最新的开源补丁和自行开发的补丁。该发行版通过对HBase的改进和创新,提供实时数据处理功能,并针对企业用户开发了新的平台功能,如跨数据中心的HBase数据库虚拟大表功能和数据库复制及备仇功能。此外,Intel还在Hadoop底层进行了大量优化算法,以提高应用效率和系统性能,并提供了企业必须的管理和监控功能。
  • pdf 文档 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖

    0 码力 | 17 页 | 1.64 MB | 1 年前
    3
    文档介绍了MATLAB与Spark/Hadoop集成实现大数据处理和价值挖掘的方法。文档首先阐述了大数据的四大特征(Volume, Variety, Value, Velocity)及其带来的挑战,并介绍了MATLAB在大数据处理中的功能,如tall数组、并行与分布式计算、内存与数据访问等。同时,文档详细说明了MATLAB与Hadoop和Spark的集成方式,包括访问HDFS、在Spark/Hadoop集群上运行MATLAB代码,并通过汽车传感器数据分析的应用演示展示了其实际应用。
  • pdf 文档 Hadoop Shell 命令

    0 码力 | 10 页 | 99.34 KB | 1 年前
    3
    文档详细阐述了Hadoop Shell命令的使用方法,涵盖了文件和目录操作、权限管理等功能。每个命令的具体用法、参数设置、示例及返回值均被系统地介绍,旨在帮助用户高效管理Hadoop文件系统。
  • pdf 文档 Hadoop 3.0以及未来

    0 码力 | 33 页 | 841.56 KB | 1 年前
    3
    文档介绍了Hadoop的历史发展历程,从2003年至2017年,涵盖了Hadoop 1.0、2.0及3.0的发布和重大事件。详细阐述了Hadoop 3.0的新特性,包括HDFS、YARN、MapReduce及Common组件的改进,如HDFS的更高性能名节点、Erasure Coding的完善,YARN的时态资源配置和调度增强,以及MapReduce的Task层次Native优化。文档还展望了Hadoop未来的发展方向,包括对象存储、更高性能Namenode、锁机制改进及Erasure Coding的完善。
  • pdf 文档 尚硅谷大数据技术之Hadoop(生产调优手册)

    0 码力 | 41 页 | 2.32 MB | 1 年前
    3
    文档详细描述了Hadoop集群的生产环境调优手册,主要涵盖HDFS和YARN的优化与维护。内容包括NameNode故障恢复、集群安全模式与磁盘修复、服务器间数据均衡、集群扩容及缩容、慢盘监控等。通过实际案例和操作步骤,展示了如何处理集群故障、优化性能、配置白名单、执行磁盘均衡任务以及监控慢盘问题。同时,文档还提供了压测方法和结果分析,帮助用户评估集群性能。
  • pdf 文档 大数据集成与Hadoop - IBM

    0 码力 | 16 页 | 1.23 MB | 1 年前
    3
    文档探讨了大数据集成与Hadoop技术的应用与实践,重点介绍了Hadoop在大数据处理中的优势以及其在企业中的应用挑战。文档指出,Hadoop能够支持新流程和架构,帮助企业降低成本、提高收益并实现竞争优势,但其本身并非完整的解决方案,必须依赖大数据集成技术。有效的大数据集成需要弹性、可扩展性、功能性和治理能力,以避免'垃圾进垃圾出'的现象。IBM提出五大最佳实践,包括避免手动编码、采用统一数据集成与治理平台、提供可扩展集成功能、实施世界级数据治理以及强大的管理与操作控制。文档还强调了大数据集成平台的可扩展性要求,支持RDBMS、ETL网格和Hadoop环境的优势,并提出如何平衡不同环境下的数据集成工作负载。
  • pdf 文档 通过Oracle 并行处理集成 Hadoop 数据

    0 码力 | 21 页 | 1.03 MB | 1 年前
    3
    本文详细介绍了如何通过Oracle并行处理集成Hadoop数据,展示了利用表函数实现Hadoop数据访问的方法。通过创建仲裁表和使用高级队列,实现了Hadoop Mapper作业与Oracle表函数的数据交互。该方法避免了数据中间存储,直接将Hadoop数据传递到Oracle查询,提高了效率。包含具体代码示例,展示了启动Mapper作业、数据读取和队列管理的过程。
  • pdf 文档 银河麒麟服务器操作系统V4 Hadoop 软件适配手册

    0 码力 | 8 页 | 313.35 KB | 1 年前
    3
    文档介绍了银河麒麟服务器操作系统V4的Hadoop软件适配情况。该操作系统支持关键行业的服务器应用,具有高安全性和可靠性,兼容主流国产服务器和数据库。Hadoop作为分布式系统框架,通过HDFS提供存储,MapReduce和YARN进行数据计算和资源管理。文档详细描述了Hadoop的环境配置、解压安装、配置文件修改(包括hadoop-env.sh、core-site.xml、hdfs-site.xml等)、集群启动及WordCount测试用例的执行流程。
  • pdf 文档 Hadoop开发指南

    0 码力 | 12 页 | 135.94 KB | 1 年前
    3
    文档详细阐述了Hadoop的开发指南,包括HDFS的基础操作和高级功能。概括包括通过WebHDFS和HttpFS接口进行文件上传、追加、读取和删除操作的具体步骤,以及MapReduce任务的提交方法。文档还介绍了环境变量配置、常用命令的使用以及HDFS的日常运维操作,如重启服务、查看状态和修改文件副本数量等。内容涵盖了Hadoop集群的安装、配置和使用,适合开发人员快速上手Hadoop开发。
  • pdf 文档 Hadoop 迁移到阿里云MaxCompute 技术方案

    0 码力 | 59 页 | 4.33 MB | 1 年前
    3
    本文提出了将Hadoop迁移到阿里云MaxCompute的大数据生态的技术方案,以解决Hadoop在技术架构复杂性、运维成本、稳定性和弹性伸缩方面的局限性。方案通过MaxCompute提供的产品组件和工具,如MMA迁移助手,实现了数据和业务的平滑迁移。迁移过程分为调研评估、试点/全面迁移、并行测试和割接三个阶段,并提供了详细的工具使用说明和最佳实践,确保迁移过程的高效、安全和稳定。
共 14 条
  • 1
  • 2
前往