混沌演练实践（二）-支付加挂链路演练 | 京东云技术团队

1. 背景

当前微服务架构下，各个服务间依赖高，调用关系复杂，业务场景很少可以通过一个系统来实现，常见的业务场景实现基本涉及多个上下游系统，要保证整体链路的稳定性，需要尽量减少系统之间的耦合性，避免因为单点失效引起整个链路的故障。

2. 目标

通过混沌演练验证链路中部分系统发生故障时候的整体链路的表现，对链路保持正常运作的能力进行校验和评估,提前识别未知隐患并进行修复,进而保障整个链路更好地抵御生产环境中的失控条件,提升整体场景功能的稳定性。

3. 演练链路

对真实的业务场景进行混沌演练，就需要对业务场景的相关服务和调用关系进行链路梳理，一般需要根据实际业务场景，画出系统交互图，通过链路串联、数据追踪、和上下游确认等方式整理链路图。

4. 演练计划

混沌演练之前，一定要好可行性评估，评估可以演练的服务部署环境、演练工具的成熟度、演练场景的爆炸半径等，然后决策演练场景，进行实践操作。

混沌演练实践（二）-支付加挂链路演练 | 京东云技术团队

5. 内容加载演练实践

5.1 链路梳理

内容加载链路演练，通过内容加载的系统交互梳理出加载链路：摹略引擎执行-AB分流-CMS资源获取-鹰眼内容发送

混沌演练实践（二）-支付加挂链路演练 | 京东云技术团队

5.2 接口梳理

根据调链路调用关系用梳理出具体的接口：

混沌演练实践（二）-支付加挂链路演练 | 京东云技术团队

5.3 制定演练计划

演练时间：2023.03.28 14:00-22:00

演练攻击人员：孙X英、陈X然；演练防守人员：张X雷、付X军、刘X、韩X

针对链路接口设计演练场景，一般根据系统特色来设计更容易发生的故障，比如应用偏计算比较消耗CPU的话，故障设计包含CPU满载，应用对于响应的时效有严格的要求的话一般包含方法延迟故障设计。

本次链路故障场景设计如下：

混沌演练实践（二）-支付加挂链路演练 | 京东云技术团队

具体演练场景设计可参考：混沌实战演练（一）

5.4 演练执行

目前借助天权自动化运维平台进行混沌攻防演练，进入工具市场—演练类，选择不同的故障方案，点击“立即执行”；

如选择Java进程满载场景演练，选择满载率100%，满载核数为演练应用部署服务的CPU核数，演练时长是执行满载的持续时间，选择演练的具体应用和指定IP，执行演练计划。

演练示例，根据演练的场景配置好故障参数，如下图为精准触达系统-消息触达方法延迟增加30ms参数设定：

混沌演练实践（二）-支付加挂链路演练 | 京东云技术团队

演练执行结果检查，下图为分流服务-JAVA进程满载，指定分流进程CPU满载，故障执行结果：

混沌演练实践（二）-支付加挂链路演练 | 京东云技术团队

5.5 演练监控

使用监控工具实时收集服务器在混沌演练运行期间的性能状态，如系统层面的 CPU、内存等使用情况，观察方法的响应时间、成功率等指标，一方面验证在混沌场景执行期间系统状态是否达到预期的效果，同时记录演练期间发生的问题，记录现场，另一方面通过监控发现有风险问题进行人工干预，立刻终止演练。

场景一：精准触达系统-消息触达方法延迟增加30ms

演练监控方法执行的成功率和 TP 999：

混沌演练实践（二）-支付加挂链路演练 | 京东云技术团队

场景二：分流服务-JAVA进程满载，指定分流进程CPU满载

监控平台实时观测系统的CPU使用率：

混沌演练实践（二）-支付加挂链路演练 | 京东云技术团队

5.6 演练反馈

检查系统故障发生时候监控手段是否完善，研发人员是否可以根据系统告警，快速的定位并解决问题。检查团队的响应、协同效率。

邮件事故告警：

混沌演练实践（二）-支付加挂链路演练 | 京东云技术团队

事故恢复告警：

混沌演练实践（二）-支付加挂链路演练 | 京东云技术团队

5.7 环境恢复

场景演练可等待演练时长结束后自行中止，也可根据手工取消、终止演练场景。

演练完成后建议需要重启容器，保证服务恢复正常状态。

5.8 演练复盘

演练结束之后，我们需要对演练进行复盘。不同的故障下，系统的表现以及整体业务场景所受到的影响，演练过程中所发现的问题，需要在复盘报告中呈现出来。

混沌演练实践（二）-支付加挂链路演练 | 京东云技术团队

6.总结

链路演练通过提前主动注入故障，发现系统之间的强弱依赖，对链路进行检验，降低生产环境中故障发生的概率。

“居安思危，思则有备，有备无患。”

作者：京东科技孙民英

内容来源：京东云开发者社区

1. 背景

2. 目标

3. 演练链路

4. 演练计划

5. 内容加载演练实践

5.1 链路梳理

5.2 接口梳理

5.3 制定演练计划

5.4 演练执行

5.5 演练监控

5.6 演练反馈

5.7 环境恢复

5.8 演练复盘

6.总结

android内涵段子项目-(架构第一期)

Android进阶之音视频技术

热门文章