大数据时代的Intel之Hadoop
0 码力 | 36 页 | 2.50 MB | 1 年前文档介绍了Intel在大数据时代的角色,特别是其Hadoop商业发行版的特点与优势。Intel Hadoop商业发行版提供了经过实际验证的企业级发行版本,确保长期稳定运行,并集成了最新的开源补丁和自行开发的补丁。该发行版通过对HBase的改进和创新,提供实时数据处理功能,并针对企业用户开发了新的平台功能,如跨数据中心的HBase数据库虚拟大表功能和数据库复制及备仇功能。此外,Intel还在Hadoop底层进行了大量优化算法,以提高应用效率和系统性能,并提供了企业必须的管理和监控功能。MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖
0 码力 | 17 页 | 1.64 MB | 1 年前文档介绍了MATLAB与Spark/Hadoop集成实现大数据处理和价值挖掘的方法。文档首先阐述了大数据的四大特征(Volume, Variety, Value, Velocity)及其带来的挑战,并介绍了MATLAB在大数据处理中的功能,如tall数组、并行与分布式计算、内存与数据访问等。同时,文档详细说明了MATLAB与Hadoop和Spark的集成方式,包括访问HDFS、在Spark/Hadoop集群上运行MATLAB代码,并通过汽车传感器数据分析的应用演示展示了其实际应用。Hadoop Shell 命令
0 码力 | 10 页 | 99.34 KB | 1 年前文档详细阐述了Hadoop Shell命令的使用方法,涵盖了文件和目录操作、权限管理等功能。每个命令的具体用法、参数设置、示例及返回值均被系统地介绍,旨在帮助用户高效管理Hadoop文件系统。Hadoop 3.0以及未来
0 码力 | 33 页 | 841.56 KB | 1 年前文档介绍了Hadoop的历史发展历程,从2003年至2017年,涵盖了Hadoop 1.0、2.0及3.0的发布和重大事件。详细阐述了Hadoop 3.0的新特性,包括HDFS、YARN、MapReduce及Common组件的改进,如HDFS的更高性能名节点、Erasure Coding的完善,YARN的时态资源配置和调度增强,以及MapReduce的Task层次Native优化。文档还展望了Hadoop未来的发展方向,包括对象存储、更高性能Namenode、锁机制改进及Erasure Coding的完善。尚硅谷大数据技术之Hadoop(生产调优手册)
0 码力 | 41 页 | 2.32 MB | 1 年前文档详细描述了Hadoop集群的生产环境调优手册,主要涵盖HDFS和YARN的优化与维护。内容包括NameNode故障恢复、集群安全模式与磁盘修复、服务器间数据均衡、集群扩容及缩容、慢盘监控等。通过实际案例和操作步骤,展示了如何处理集群故障、优化性能、配置白名单、执行磁盘均衡任务以及监控慢盘问题。同时,文档还提供了压测方法和结果分析,帮助用户评估集群性能。大数据集成与Hadoop - IBM
0 码力 | 16 页 | 1.23 MB | 1 年前文档探讨了大数据集成与Hadoop技术的应用与实践,重点介绍了Hadoop在大数据处理中的优势以及其在企业中的应用挑战。文档指出,Hadoop能够支持新流程和架构,帮助企业降低成本、提高收益并实现竞争优势,但其本身并非完整的解决方案,必须依赖大数据集成技术。有效的大数据集成需要弹性、可扩展性、功能性和治理能力,以避免'垃圾进垃圾出'的现象。IBM提出五大最佳实践,包括避免手动编码、采用统一数据集成与治理平台、提供可扩展集成功能、实施世界级数据治理以及强大的管理与操作控制。文档还强调了大数据集成平台的可扩展性要求,支持RDBMS、ETL网格和Hadoop环境的优势,并提出如何平衡不同环境下的数据集成工作负载。通过Oracle 并行处理集成 Hadoop 数据
0 码力 | 21 页 | 1.03 MB | 1 年前本文详细介绍了如何通过Oracle并行处理集成Hadoop数据,展示了利用表函数实现Hadoop数据访问的方法。通过创建仲裁表和使用高级队列,实现了Hadoop Mapper作业与Oracle表函数的数据交互。该方法避免了数据中间存储,直接将Hadoop数据传递到Oracle查询,提高了效率。包含具体代码示例,展示了启动Mapper作业、数据读取和队列管理的过程。银河麒麟服务器操作系统V4 Hadoop 软件适配手册
0 码力 | 8 页 | 313.35 KB | 1 年前文档介绍了银河麒麟服务器操作系统V4的Hadoop软件适配情况。该操作系统支持关键行业的服务器应用,具有高安全性和可靠性,兼容主流国产服务器和数据库。Hadoop作为分布式系统框架,通过HDFS提供存储,MapReduce和YARN进行数据计算和资源管理。文档详细描述了Hadoop的环境配置、解压安装、配置文件修改(包括hadoop-env.sh、core-site.xml、hdfs-site.xml等)、集群启动及WordCount测试用例的执行流程。Hadoop开发指南
0 码力 | 12 页 | 135.94 KB | 1 年前文档详细阐述了Hadoop的开发指南,包括HDFS的基础操作和高级功能。概括包括通过WebHDFS和HttpFS接口进行文件上传、追加、读取和删除操作的具体步骤,以及MapReduce任务的提交方法。文档还介绍了环境变量配置、常用命令的使用以及HDFS的日常运维操作,如重启服务、查看状态和修改文件副本数量等。内容涵盖了Hadoop集群的安装、配置和使用,适合开发人员快速上手Hadoop开发。Hadoop 迁移到阿里云MaxCompute 技术方案
0 码力 | 59 页 | 4.33 MB | 1 年前本文提出了将Hadoop迁移到阿里云MaxCompute的大数据生态的技术方案,以解决Hadoop在技术架构复杂性、运维成本、稳定性和弹性伸缩方面的局限性。方案通过MaxCompute提供的产品组件和工具,如MMA迁移助手,实现了数据和业务的平滑迁移。迁移过程分为调研评估、试点/全面迁移、并行测试和割接三个阶段,并提供了详细的工具使用说明和最佳实践,确保迁移过程的高效、安全和稳定。
共 14 条
- 1
- 2
关键词
Intel Hadoop商业发行版 对象存储技术 HBase 优化 大数据处理 大数据 MATLAB Hadoop Spark tall数组 Hadoop Shell命令 文件管理 目录操作 权限管理 命令返回值 Hadoop 3.0 HDFS YARN MapReduce Erasure Coding NameNode DataNode 安全模式 白名单 慢盘监控 大数据集成 InfoSphere Information Server 避免手动编码 数据治理 Oracle 并行处理 Hadoop 集群 表函数 高级队列 Mapper 作业 银河麒麟操作系统 WebHDFS APPEND DELETE MaxCompute 大数据生态 迁移工具 数据迁移