Curve质量监控与运维 - 网易数帆
2.64 MB
33 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
zh | .pdf | 3 |
摘要 | ||
文档介绍了网易数帆的分布式存储系统Curve,强调其高性能和稳定性,以及在内部线上无故障运行近两年的情况。文档详细说明了Curve的质量管理体系,包括设计、开发、测试和持续集成流程;监控体系,包括监控指标的采集、处理与可视化展示,主要使用Prometheus、Grafana和Daily Reporter等工具;运维体系,包括运维特性和工具。文档还描述了bvar的使用,用于生成和查询监控指标,并展示了Curve的监控架构和质量控制流程。 | ||
AI总结 | ||
这是一份关于网易数帆团队开发的分布式存储系统Curve的质量监控与运维总结报告。以下是文档的核心内容和关键信息:
---
### **Curve概述**
Curve是网易为块存储、对象存储、云原生数据库和EC等场景自研的分布式存储系统,具有以下特点:
- **高性能**:实现了低延迟、高性能存储。
- **广泛应用**:支持OpenStack和Kubernetes,已在网易内部线上稳定运行近两年。
- **开源**:已完整开源,github主页和代码仓库公开。
---
### **Curve质量管理**
1. **质量管理体系**:
- **设计**:制定设计流程和文档规范。
- **开发**:遵循编码规范和提交流程,采用版本管理。
- **测试**:涵盖单元测试、集成测试和系统测试,并通过CI(持续集成)实现代码质量控制。
- **CI测试**:通过Jenkins实现代码持续集成,异常测试报表提供问题追踪。
2. **软件质量定义**:
- 软件质量是指软件与明确和隐含需求的一致程度。
- 质量控制贯穿设计、开发和测试全流程。
---
### **Curve监控体系**
1. **监控架构**:
- 使用以下工具实现监控指标的采集、处理和可视化:
- **Prometheus**:开源监控与报警工具,负责指标采集和存储。
- **Grafana**:开源度量分析和可视化工具,提供数据可视化展示。
- **Daily Reporter**:Python脚本,定时生成集群监控日报并通过邮件发送。
2. **监控指标(Metric)**:
- Curve通过brpc内置的bvar组件生成监控指标,特点包括:
- 线程本地存储,减少cache bouncing,性能开销低。
- 支持通过web portal导出和查询监控指标。
- 常用bvar数据类型:
- `Adder |
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余
21 页请下载阅读 -
文档评分