pdf文档 降级预案在同程艺龙的工程实践-王俊翔

18.67 MB 26 页 0 评论
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档介绍了同程艺龙在工程实践中降级预案的设计与实施。通过分级预警(蓝色、黄色、红色)和预案编排,实现系统服务的降级和恢复。触发机制包括降级保护期窗口、流量分配策略和指标恢复判断。恢复机制通过流量百分比、总量或自定义策略探测实现。技术手段涵盖MySQL延时模拟、Redis超时模拟、服务异常模拟及字节码增强等。通过持续的故障演练和数据回溯,系统不断迭代,提高了可靠性和工程团队的应对能力。
AI总结
《降级预案在同程艺龙的工程实践》摘要: 演讲者王俊翔从同程艺龙的实践中分享了降级预案的设计与落地经验,重点内容如下: 一、降级预案分级 - **蓝色预警**:小规模非核心服务降级 - **黄色预警**:大规模非核心服务降级 - **红色预警**:所有非核心服务降级 二、降级预案的实现 1. **预案编排**:基于链路关系和优先级,形成降级执行链路。 2. **实时测试与演练**:通过线上实时预案测试和演练,持续优化预案有效性。 3. **降级触发与恢复**:在保护期内避免恢复试探,通过流量分配策略(如百分比、总量策略)实施恢复探测。 4. **多维度策略**:支持百分比、总量及自定义策略调用的灵活实现。 三、降级预案的价值 1. **保障系统可用性**:通过持续治理和演练,发现系统薄弱点并加强预防。 2. **提升团队能力**:反复演练历练团队,积累经验,提升工程师应对故障的能力。 3. **实现常态化管理**:降级预案的持续优化让系统可靠性更易验证。 四、平台化建设 1. **参数化、配置化、脚本化**:实现策略灵活调整。 2. **全局预案管理**:从服务重要程度出发,制定分级预案并跟踪监控降级链路。 3. **多维度验证**:评估系统可靠性,优化降级策略和参数。 五、技术架构 1. 中心架构包括: - ETCD(服务注册、元数据存储) -_TOTAL_MQ(熔断降级监听) - Jetty(故障注入) 2. 数据采集、计算、存储及查询服务: - KAFKA(数据采集) - Flink(指标计算) - HBase(指标存储) - ES(日志存储) 演讲总结: 降级预案在保障系统高可用性方面起着关键作用,通过分级策略、持续演练、技术实现和平台化建设,能够有效提升系统稳定性和团队应急能力。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 14 页请下载阅读 -
文档评分
请文明评论,理性发言.