pdf文档 尚硅谷大数据技术之Hadoop(生产调优手册)

2.32 MB 41 页 0 评论
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档详细描述了Hadoop集群的生产环境调优手册,主要涵盖HDFS和YARN的优化与维护。内容包括NameNode故障恢复、集群安全模式与磁盘修复、服务器间数据均衡、集群扩容及缩容、慢盘监控等。通过实际案例和操作步骤,展示了如何处理集群故障、优化性能、配置白名单、执行磁盘均衡任务以及监控慢盘问题。同时,文档还提供了压测方法和结果分析,帮助用户评估集群性能。
AI总结
以下是《尚硅谷大数据技术之Hadoop(生产调优手册)》的总结: --- ## 《尚硅谷大数据技术之Hadoop(生产调优手册)》总结 ### 第6章 HDFS—故障排除 1. **NameNode故障处理** - **需求**:解决NameNode进程挂掉且数据丢失的问题。 - **解决步骤**: - 使用`scp`从Secondary NameNode拷贝数据到原NameNode存储目录。 - 重新启动NameNode并上传文件验证。 2. **集群安全模式&磁盘修复** - **安全模式说明**:仅允许读操作,禁止写、删、改等操作。 - **进入场景**:加载镜像文件、编辑日志或DataNode注册期间。 - **退出条件**:所有节点启动,系统处于安全状态。 - **白名单配置**: - 添加新服务器到白名单中(如hadoop104、hadoop105)。 - 分发配置并重启集群,刷新NameNode。 - **数据均衡处理**:使用`hdfs diskbalancer`工具进行磁盘间数据均衡。 --- ### 第2章 HDFS—集群压测 1. **读写性能测试** - **网络设置**:虚拟机网络设置为100Mbps,1字节=8位,速度转换为12.5M/s。 - **测试内容**:测试HDFS的读写性能,重点关注网络和磁盘的影响。 - **结果分析**: - 测得速度为1.61M/s,三台服务器带宽满利用达30M/s。若实际速度远低于网络带宽,可采用固态硬盘或增加磁盘。 2. **计算公式**: - 集群整体吞吐量 = 单个MapTask吞吐量 × 任务数。 - 平均IO率 = 每个任务处理文件大小 / 写数据时间。标准差越小,任务分布越均衡。 --- ### 第3章 HDFS—磁盘数据均衡 1. **数据均衡命令**: - 生成均衡计划:`hdfs diskbalancer -plan hadoop103`。 - 执行计划:`hdfs diskbalancer -execute hadoop103.plan.json`。 - 查询任务状态:`hdfs diskbalancer -query hadoop103`。 - 取消任务:`hdfs diskbalancer -cancel hadoop103.plan.json`。 --- ### 第4章 HDFS—集群扩容及缩容 1. **白名单配置** - **创建文件**:在NameNode的`/opt/module/hadoop-3.1.3/etc/hadoop`目录下创建whitelist和blacklist文件。 - **添加主机**:在whitelist中添加服务器名称(如hadoop102、hadoop103等)。 - **分发配置**:使用`xsync whitelist`分发到集群所有节点,并刷新NameNode。 2. **测试验证**:在新服务器(如hadoop105)上上传文件,确保集群正常运行。 3. **企业经验**: -高频提交任务节点需均衡数据。 - 恢复回收站数据:`hdfs fs -mv /user/atguigu/.Trash/Current/user/atguigu/input /user/atguigu/input`。 --- ### 案例:模拟等待安全模式 1. **操作步骤**: - 进入安全模式:`hdfs dfsadmin -safemode enter`。 - 执行脚本`safeMode.sh`,观察任务状态。 - 退出安全模式:`hdfs dfsadmin -safemode leave`。 --- ### 测试结果与分析 1. **压测结果**: - 10个文件 × 2副本 = 20个文件测试。 - 测得速度为1.61M/s × 20 ≈ 32M/s,接近网络带宽极限。 2. **改进建议**: - 如果网络资源已满,可以增加固态硬盘或磁盘数量。 --- ### 提醒事项 - **NameNode故障**:及时备份数据,防止数据丢失。 - **安全模式**:了解其触发条件和退出条件,避免误操作。 - **数据均衡**:定期检查节点数据分布,确保集群高效运行。 - **压测分析**:根据测试结果优化硬件配置,提升读写性能。 --- 以上总结涵盖了文档中的核心内容,省略了冗余细节,突出重点,逻辑清晰,便于理解和操作。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 34 页请下载阅读 -
文档评分
请文明评论,理性发言.