Atlassian宕机突显SaaS弹性缺口

SaaS带来速度、创新和企业能力……

今天的企业将软件作为一种服务来接受,以快速增加功能,而无需在基础设施和内部人员上进行大量投资。企业领导者选择一项服务,签署一份合同,然后很快就拥有了CI/CD工具、完整的人力资源管理系统或其他业务应用程序。

以及新的、不熟悉的——往往是不被理解的——风险。

技术和业务风险随着技术及其交付方式的变化而变化。虽然云服务通常被认为更可靠,但企业面临SaaS和公共云的新风险——不熟悉或不完全了解的风险。当人们看到长时间的停电事件时,他们会睁大眼睛,竖起耳朵Atlassian的最新问题.突然之间,SaaS依赖关系和弹性问题变得重要起来,因为企业无法访问其喜爱的SaaS工具。使用SaaS的独特风险在于,您无法控制应用程序或工具,无法自己重新实现。理解级联风险也很重要,因为一些著名的SaaS服务托管在领先的超规模计算公司的基础设施上。您需要像分析投资组合中的任何其他技术一样,分析SaaS和云服务中断的业务影响。

在为SaaS打造弹性时,有两件事很重要:你的供应商D和什么你Do

定义供应商的责任。

信任,但要核查供应商声称支持运营和恢复计划的服务水平协议。要确保您的SaaS供应商兑现自己的承诺:

  • 要求SaaS提供商共享他们的弹性能力。了解这些SaaS服务的设计、体系结构和部署模型。这些应该是透明的,而不是不透明的。SaaS提供商构建了什么样的恢复能力来抵御失败?坚持要求提供者清楚地说明它涵盖了哪些故障场景,而不涵盖哪些。
  • 查询IT操作和控制。虽然一些SaaS提供商可能将其设计和架构视为秘密武器,但不要满足于样板式的响应。让您的恢复实践人员了解SaaS提供商如何管理其服务,包括其操作实践。
  • 在合同中构建具有真正供应商后果的sla。对于供应商来说,停机不仅仅代表您的业务缺少服务。根据特定的SaaS工具,宕机可能意味着很多企业成本-无所事事的员工,错过截止日期,无法销售或运输产品,失去物理或数字安全,对生命的威胁,以及声誉风险。使您与供应商的sla与服务对您的业务的重要性相匹配。一家公司在其供应商合同中规定,违反sla的付款必须由董事会的每个成员签署,这样中断就会升级到最高级别。

实现您自己的控件。

企业的弹性是你所关心的;不要把责任推卸给你的供应商。使用SaaS,您可以避免运行和维护应用程序,但在服务中断的情况下,您将遭受业务损失。你不需要运行基础设施来将它们重新组合起来。为SaaS提供商不涵盖的风险场景做好准备,并制定企业可以采取的控制和缓解计划,以将SaaS中断对企业的影响降至最低。

SaaS弹性的风险和控制措施各不相同,请相应地采取行动

风险 控制 控制描述
数据丢失或损坏 备份数据 在大多数情况下,SaaS供应商不承担客户端数据的责任;它可能是备份的一部分,但它们并没有防止意外删除或损坏。启动恢复没有简单的方法。让我们明确一点,从SaaS中备份数据并不意味着您可以在中断的情况下恢复业务操作。数据备份在数据损坏的情况下为数据提供了一个安全网——并将其恢复到SaaS。如果无法继续使用当前提供者,备份可以提供一种执行服务迁移的方法。
依赖基础设施故障 监视关键的云服务依赖关系 确定基础设施供应商是否会对SaaS供应商的产品产生下游影响。例如,如果您的供应商在AWS US East有重要的基础设施,您应该在弹性仪表板中监视该区域的服务可用性。
短期停机 确定服务中断的容忍度 大多数云计算和SaaS中断时间相对较短,虽然中断不方便,但SaaS提供的价值超过了中断。当等式发生变化时,在内部确定必须采取的行动——例如变通方案或服务迁移。
中期停机 工作区和停机计划 识别需要变通方法以保持业务即使在降级状态下也能运行的关键流程和操作。在计划停机场景时,问一些关键问题,例如:如果您的CI/CD管道失败,开发人员将如何编写和发布代码?如果您的协作系统不可用,在服务恢复之前,团队如何共享关键文档?是否有混合选项或供应商提供的可用选项?
长期停机 服务迁移 大多数SaaS公司都有一批健康的竞争对手,随时准备帮助您向他们的平台过渡。提前确定哪些供应商最适合您的需求。如果可能,请与潜在供应商一起测试从现有供应商转换和迁移数据备份到新平台所需的操作。还要对您的替代提供者进行严格的尽职调查,因为它可能暴露与您当前提供者类似的风险。
供应商关闭或停止服务 软件托管/ SaaS托管 英国NCC Group等公司提供独特的托管服务,与客户和软件或SaaS供应商签订协议,持有(增量)代码,并在托管中提供运营专业知识,以降低供应商停止产品或停业的风险。

练习和测试你的恢复和弹性选择。

每个运动员都在训练自己的运动,评估自己的表现——通常是在教练或其他运动员的帮助下决定如何提高。您的弹性操作应该进行实践、测试和改进以同样的方式。弹性和恢复是一项运动,执行要求组织中的每个人都知道在关键应用程序或服务脱机的情况下他们在做什么。你的销售团队需要知道如果Salesforce无法使用该怎么办;你的人力资源团队需要知道,如果工作日出现故障,应该采取什么补救措施;你的DevOps团队需要明白,如果Atlassian倒闭了,如何保持高效率。

就像使用自我管理的基础设施一样,在SaaS中断中生存下来的关键是了解风险,实现控制以降低这些风险,然后测试您的计划,以确保这些计划有效,并且每个人都知道在危机发生时如何执行。

特别感谢Charles Betz, David Mooter和Will McKeon-White积极参与创建这个博客。

查看我们对Atlassian宕机的观察,以及如果受到影响可以做些什么。