pdf文档 基于 APM 的智能运维体系在京东物流的落地和实践-付正全

3.52 MB 41 页 0 评论
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档介绍了京东物流基于APM的智能运维体系的落地和实践。首先分析了业界智能运维的发展现状及趋势,提出了智能运维体系建设的方法论,包括统一规划、标准化、产品化设计等。接着详细描述了京东物流在大规模实时监控平台建设中的实践方案,涵盖了传统故障处理的局限性以及智能故障处理的优势,如主动式故障预测、自动化处理和报警收敛。同时介绍了APM在京东物流中的实际应用,包括故障定位、性能监控和优化,以及对业界分布式跟踪系统的概览,如Google的Dapper、阿里的EagleEye等。
AI总结
基于APM的智能运维体系在京东物流的落地与实践 一、讲师介绍 付正全,京东物流架构师,国家认证信息系统项目管理师,专注于监控平台研发工作8年,深耕DevOps和监控平台领域,负责京东物流火眼监控平台的架构设计和开发。 二、智能运维发展现状及趋势 1. 分布式跟踪系统发展:业界广泛采用分布式跟踪技术,如Google的Dapper、阿里巴巴的EagleEye、京东的JTrace、JD-Hydra等。 2. 工具厂商:包括Compuware、博睿Bonree、听云、New Relic等,形成了多元化市场。 3. 趋势:智能化、自动化、产品化,向AIOps(人工智能运维)方向发展。 三、智能运维体系建设方法论 1. 统一规划,避免重复建设 2. 标准化是前提 3. 产品化设计和开发 4. 服务驱动,运维中台 5. 业务增值,过程改进 四、大规模实时监控平台实践 1. 平台架构设计 - 数据采集:Agent采集多维度数据 - 数据传输:高效数据传输方案 - 数据存储:分布式存储 - 数据分析:实时分析和后续分析 - 展示:可视化展示 2. 核心优化点 - 高效数据采集方案 - 高效数据存储方案 - 高效数据处理方案 五、智能故障定位与处理 1. 传统故障处理痛点 - 被动处理:事后处理、人工处理、无计划性、报警爆炸 2. 主动故障处理优势 - 事前感知:使用故障预测算法 - 自动处理:决策引擎和机器学习 - 定时巡检:平台化巡检 - 报警收敛:告警筛选、过滤、合并 六、APM在京东物流的落地实践 1. 分布式跟踪系统 - 现有系统:JTrace、JD-Hydra(已废弃)、Callgraph、SGM - industry ecosystems:OpenTracing、SkyWalking 2. 智能运维(AIOps)落地规划 - 总体思路:建立智能运维平台 七、总结 1. 京东物流的智能运维体系建设 - 现状:基于APM的智能运维体系已初步建立 - 趋势:向AIOps方向发展 - 方法论:统一规划、标准化、产品化、服务驱动等 2. 未来方向 - 智能化、自动化、产品化 - 实现智能运维全生命周期自动化
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 29 页请下载阅读 -
文档评分
请文明评论,理性发言.