伦敦证券交易所集团在AWS上使用混沌工程来提高弹性 架构博客
- 9
伦敦证券交易所集团利用 AWS 进行混沌工程以提升韧性
文章重点
伦敦证券交易所集团LSEG利用混沌工程测试其云系统中的失效场景,以提升系统韧性和可观察性。这一过程是透过 AWS 支持的三天混沌工程活动实施,帮助发现潜在风险并达成监管合规。实验中使用了 AWS 故障注入服务来模拟多种失效场景,确保系统的稳定性。在这篇文章中,我们将探讨伦敦证券交易所集团LSEG后贸易技术团队在 AWS 支持下进行的一些失效场景测试。混沌工程使 LSEG 能够在控制的实验中模拟其云系统中的现实故障,这不仅提高了系统的韧性和可观察性,还降低了风险,并在部属生产环境之前确保了符合监管要求。

引言、工具及方法
作为一个受到严格监管的全球金融市场基础设施提供商,LSEG 一直在寻找增强工作负载韧性的机会。LSEG 与 AWS 合作,组织并运行了一个为期三天的 AWS 基于经验的加速EBA活动,对关键工作负载进行混沌工程实验。该活动由架构团队赞助和主导,并涉及跨功能的后贸易技术团队在不同工作流中的参与。实验使用了 AWS 故障注入服务FIS,遵循了 验证工作负载韧性的混沌工程 文章中所描述的实验方法。
现代分散式云系统的 韧性 可以透过检讨工作负载架构和恢复、评估标准作业程序SOPs,以及建立 SOP 警报和恢复自动化来持续提升。 AWS 韧性中心 提供了全面的工具套件,以开始这些活动。
另一项关键活动是 混沌工程,这种方法通过控制现实的实验来为客户系统引入“控制混沌”。混沌工程帮助客户创建现实的故障条件,揭示隐藏的错误,监控盲点,并管理在分布式系统中难以发现的瓶颈。因此,在金融服务等受管制行业中,它成为一个非常有用的工具。
架构概况
下图中显示的架构图描述了一个部署在虚拟私有云VPCs中的三层应用程序,并具有多可用区MultiAZ的设置。
操作在公共子网中的网页应用程序通过使用 Amazon Elastic Compute CloudAmazon EC2自动扩展组,并连接到位于私有子网中的 Amazon Relational Database ServiceAmazon RDS数据库,创建了一个混合架构。此外,一些内部服务则在另一个 VPC 中托管,并通过容器提供服务。FIS 提供了一个受控环境,以验证架构在多种故障场景下的稳定性,例如:
Amazon EC2 实例故障导致应用程序或容器在此机器上故障Amazon RDS 数据库实例重启或故障转移严重的网络延迟降级网络连接中断Amazon Elastic Block StoreAmazon EBS卷故障IOPS 暂停,磁碟满Amazon EC2 实例和容器故障
此用例的目标是评估运行在 Amazon EC2 实例上的应用程序或容器在意外中断或实例不稳定期间的韧性,以及系统如何能够调整自身以继续运行。您可以使用 [awsec2stopinstances](https//docsawsamazoncom/fis/latest/userguide/fistutorialstopinstanceshtml) 或 [awsec2terminateinstances](https//docsawsamazoncom/fis/latest/userguide/fisactionsreferencehtml#terminateinstances) FIS 操作来模拟不同的 EC2 实例故障模式。对运行容器的回应也进行了评估。如果您在如 Amazon Elastic Container ServiceAmazon ECS或 Amazon Elastic Kubernetes ServiceAmazon EKS等受管 AWS 服务中运行容器,可以使用 FIS 失效场景来测试 ECS 任务 和 EKS Pod。
Amazon RDS 故障
使用 RDS 故障 是另一个常见的场景,通过大规模故障转移和节点重启来识别和排查数据库受管服务的故障。FIS 可用于向受管 RDS 实例引入重启/故障转移故障条件,以了解灾难故障转移、同步失败及其他数据库相关问题带来的瓶颈和问题。
严重的网络延迟降级
网络延迟降级 种类的引入会加大连接两个系统的网络接口的延迟。这有助于您理解这些系统如何处理数据传输延迟及您的运营响应准备性警报、度量和纠正。这一 FIS 操作awsssmsendcommand/AWSFISRunNetworkLatency使用 Linux 流量控制tc工具。
风驰加速器下载网络连接中断
连接问题,如流量中断或其他网络问题,可以通过 FIS 网络行动 进行模拟。FIS 支持 awsnetworkdisruptconnectivity 操作,以测试您的应用程序在其子网中发生完全或部分连接丢失的情况下的韧性,以及与其他 AWS 网络组件如 路由表 或 AWS Transit Gateway的中断。
Amazon EBS 卷故障IOPS 暂停
磁碟故障是实时操作系统中的一个棘手问题。这可能导致由于 I/O 故障或在重负荷活动期间的存储故障而使交易失败。 EBS 卷故障操作 测试在不同磁碟故障场景下的系统性能。FIS 支持 awsebspausevolumeio 操作以暂停目标 EBS 卷上的 I/O 操作,以及其他故障模式。目标卷必须位于同一可用区,并必须附加到基于 AWS Nitro 系统 的实例上。
实验结果与结论
在实验之后,LSEG 团队成功识别出一系列架构改进,以降低应用程序的恢复时间并增强度量的精细度和警报能力。作为第二个具体成果,团队现在拥有一套可重用的混沌工程方法论和工具集。定期进行跨功能的实体活动是组织中实施混沌工程实践的良好方式。
您可以立即开始您的 AWS 韧性之旅,详情请参考 AWS 韧性中心。
标签: AWS FIS, 混沌工程, 韧性, 韧性中心
相关人员介绍
Elias BedmarElias 是 AWS 的高级客户解决方案经理。他是一名技术和业务项目经理,帮助客户在 AWS 上取得成功。他支持大型迁移和现代化计划、云成熟度倡议以及新服务的采用,并在迁移交付、DevOps 工程及云基础设施方面拥有丰富经验。
Sudha ArumugamSudha 是 AWS 的企业解决方案架构师,为大型金融服务组织提供建议。她拥有 13 年以上经验,能够为复杂问题创建可靠的软件解决方案,并在无伺服器事件驱动架构和技术上有广泛经验,对机器学习和人工智慧充满热情。她喜欢开发移动和网页应用程序。
Magnus SchoemanMagnus Schoeman 是 AWS 的首席客户解决方案经理。他在公私营部门拥有 25 年的经验,曾在转型计划、业务发展和战略联盟中担任领导角色。在过去的十年中,Magnus 在受管制的金融服务操作中领导以技术为驱动的转型涵盖支付、财富管理、资本市场及寿险和年金。