pdf文档 Curve质量监控与运维 - 网易数帆

2.64 MB 33 页 0 评论
语言 格式 评分
zh
.pdf
3
摘要
文档介绍了网易数帆的分布式存储系统Curve,强调其高性能和稳定性,以及在内部线上无故障运行近两年的情况。文档详细说明了Curve的质量管理体系,包括设计、开发、测试和持续集成流程;监控体系,包括监控指标的采集、处理与可视化展示,主要使用Prometheus、Grafana和Daily Reporter等工具;运维体系,包括运维特性和工具。文档还描述了bvar的使用,用于生成和查询监控指标,并展示了Curve的监控架构和质量控制流程。
AI总结
这是一份关于网易数帆团队开发的分布式存储系统Curve的质量监控与运维总结报告。以下是文档的核心内容和关键信息: --- ### **Curve概述** Curve是网易为块存储、对象存储、云原生数据库和EC等场景自研的分布式存储系统,具有以下特点: - **高性能**:实现了低延迟、高性能存储。 - **广泛应用**:支持OpenStack和Kubernetes,已在网易内部线上稳定运行近两年。 - **开源**:已完整开源,github主页和代码仓库公开。 --- ### **Curve质量管理** 1. **质量管理体系**: - **设计**:制定设计流程和文档规范。 - **开发**:遵循编码规范和提交流程,采用版本管理。 - **测试**:涵盖单元测试、集成测试和系统测试,并通过CI(持续集成)实现代码质量控制。 - **CI测试**:通过Jenkins实现代码持续集成,异常测试报表提供问题追踪。 2. **软件质量定义**: - 软件质量是指软件与明确和隐含需求的一致程度。 - 质量控制贯穿设计、开发和测试全流程。 --- ### **Curve监控体系** 1. **监控架构**: - 使用以下工具实现监控指标的采集、处理和可视化: - **Prometheus**:开源监控与报警工具,负责指标采集和存储。 - **Grafana**:开源度量分析和可视化工具,提供数据可视化展示。 - **Daily Reporter**:Python脚本,定时生成集群监控日报并通过邮件发送。 2. **监控指标(Metric)**: - Curve通过brpc内置的bvar组件生成监控指标,特点包括: - 线程本地存储,减少cache bouncing,性能开销低。 - 支持通过web portal导出和查询监控指标。 - 常用bvar数据类型: - `Adder`:计数器。 - `LatencyRecorder`:记录延迟和QPS。 - `Maxer`:记录最大值。 - `Miner`:记录最小值。 - `Window`:记录一段时间内的累加值。 - `PerSecond`:记录一段时间内平均每秒的累加值。 3. **指标可视化**: - 通过Grafana实现监控指标的可视化展示,效果丰富直观。 --- ### **Curve运维体系** 1. **运维特性**: - **易部署**:提供便捷的部署工具。 - **易升级**:支持版本升级。 - **自治**:具备一定的自动化运维能力。 2. **运维工具**: - 包括部署工具、管理工具和其他辅助工具,帮助 Curve 稳定高效运行。 --- ### **总结** Curve作为网易自研的高性能分布式存储系统,通过质量管理、监控体系和运维体系保障了其稳定性和可靠性。其开源和广泛应用使其在云原生场景中具有重要价值。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 21 页请下载阅读 -
文档评分
请文明评论,理性发言.