过去一年Azure三次严重宕机，微软终于坐不住了

发布时间：2019-07-17 浏览数：

在互联网时代的下半场，随着大众对云服务需求的加强，云服务也扮演着越来越重要的角色。然而，自互联网诞生以来，网络安全隐患一直都在，云服务也不例外。频发的宕机事件，让许多企业的数据、交易和服务都受到了严重影响，带来的损失无法估算。有人说，在这个时代，一家公司的云端数据丢失基本等于倒闭。

对此，各大厂商都会在提供云服务时都着力宣扬自己的安全性，如今微软公司(Microsoft Corp.)表示，微软正在采取各种措施，将Azure的可靠性在此前透露的99.995％的平均时间运行水平上再做进一步的提高。

在今天的一篇博客中，其首席技术官Mark Russinovich指出Azure的可用性是如何受到过去12个月里“三次独特而重要的事件”的影响。

这些问题包括2018年9月美国中南部地区的数据中心停电；2018年11月背靠背Azure Active Directory多重身份验证问题以及今年5月的DNS维护问题。（ps：这并没有囊括过去一年Azure出现过的所有问题。在过去的12个月中，还有一些与Azure相关的事故发生，例如1月份的那次中断。）

Russinovich说微软在他的CTO办公室创建了一个新的质量工程团队。将与其网站可靠性工程(SRE)团队合作，寻找使Azure更加可靠的新方法。Russinovich还表示，微软正在开展其他一些旨在提高微软云服务弹性的举措。

例如，该公司计划到2021年在目前没有可用性区域的10个最大的Azure区域中添加新的可用性区域。

Russinovich说，最大的10个Azure区域已经有了可用性区域，这有助于防止数据中心级的故障。每个区域都位于Azure区域内，拥有自己独立的电源、网络和冷却基础设施。该公司还在扩展其安全部署实践框架，该框架确保Azure中的所有代码和配置更改必须通过一组严格的测试，然后才能推广到不同的地区。该框架将被扩展，包括Azure中所有软件定义的基础设施更改，包括对其网络和DNS基础设施的更改。微软还推出了预览版，用户可以在存储层启动自己的故障转移，这是2018年9月美国中南部数据中心宕机的直接结果。

据悉，故障转移是一种保护计算机系统不受故障影响的方法，当主系统发生故障时，备用设备自动接管。

Russinovich说:“因为我们的政策是优先考虑数据保留，而不是恢复时间，所以我们选择忍受更长时间的停机，以确保我们能够成功地恢复所有客户数据。”“你们中的一些人告诉我们，希望为自己的组织提供更大的灵活性，因此我们通过预览在存储帐户级别启动自己的故障转移的能力来增强客户的能力。”CTO还讨论了微软的Project Tardigrade，这是一个即将推出的服务，旨在在硬件故障和内存泄漏发生之前检测它们，并冻结受影响的虚拟机，以便将它们转移到其他主机。