基于 APM 的智能运维体系在京东物流的落地和实践-付正全
3.52 MB
41 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
摘要 | ||
文档介绍了京东物流基于APM的智能运维体系的落地和实践。首先分析了业界智能运维的发展现状及趋势,提出了智能运维体系建设的方法论,包括统一规划、标准化、产品化设计等。接着详细描述了京东物流在大规模实时监控平台建设中的实践方案,涵盖了传统故障处理的局限性以及智能故障处理的优势,如主动式故障预测、自动化处理和报警收敛。同时介绍了APM在京东物流中的实际应用,包括故障定位、性能监控和优化,以及对业界分布式跟踪系统的概览,如Google的Dapper、阿里的EagleEye等。 | ||
AI总结 | ||
基于APM的智能运维体系在京东物流的落地与实践
一、讲师介绍
付正全,京东物流架构师,国家认证信息系统项目管理师,专注于监控平台研发工作8年,深耕DevOps和监控平台领域,负责京东物流火眼监控平台的架构设计和开发。
二、智能运维发展现状及趋势
1. 分布式跟踪系统发展:业界广泛采用分布式跟踪技术,如Google的Dapper、阿里巴巴的EagleEye、京东的JTrace、JD-Hydra等。
2. 工具厂商:包括Compuware、博睿Bonree、听云、New Relic等,形成了多元化市场。
3. 趋势:智能化、自动化、产品化,向AIOps(人工智能运维)方向发展。
三、智能运维体系建设方法论
1. 统一规划,避免重复建设
2. 标准化是前提
3. 产品化设计和开发
4. 服务驱动,运维中台
5. 业务增值,过程改进
四、大规模实时监控平台实践
1. 平台架构设计
- 数据采集:Agent采集多维度数据
- 数据传输:高效数据传输方案
- 数据存储:分布式存储
- 数据分析:实时分析和后续分析
- 展示:可视化展示
2. 核心优化点
- 高效数据采集方案
- 高效数据存储方案
- 高效数据处理方案
五、智能故障定位与处理
1. 传统故障处理痛点
- 被动处理:事后处理、人工处理、无计划性、报警爆炸
2. 主动故障处理优势
- 事前感知:使用故障预测算法
- 自动处理:决策引擎和机器学习
- 定时巡检:平台化巡检
- 报警收敛:告警筛选、过滤、合并
六、APM在京东物流的落地实践
1. 分布式跟踪系统
- 现有系统:JTrace、JD-Hydra(已废弃)、Callgraph、SGM
- industry ecosystems:OpenTracing、SkyWalking
2. 智能运维(AIOps)落地规划
- 总体思路:建立智能运维平台
七、总结
1. 京东物流的智能运维体系建设
- 现状:基于APM的智能运维体系已初步建立
- 趋势:向AIOps方向发展
- 方法论:统一规划、标准化、产品化、服务驱动等
2. 未来方向
- 智能化、自动化、产品化
- 实现智能运维全生命周期自动化 |
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余
29 页请下载阅读 -
文档评分