大家都想了解仅3名工程师值夜班、无奈关服务器,微软Azure澳洲数据中心宕机超24小时!和天气预报一个月都没有了的题,听小编为大家带来详细的讲解吧!
停机时有发生,但持续超过24小时的情况很少见。
近日,澳大利亚悉尼的微软Azure服务突然中断,导致用户超过24小时无法访Azure、Microsoft365和PowerPlatform服务。随后微软发布了此次事故的初步分析报告,引起了大家的关注。
该报告将原因归因于“一个可用区的一个数据中心的部分冷却装置因电力骤降而脱机”。由于冷却装置无法正常工作,气温上升迫使数据中心自动关闭。
同时,微软也诚实地指出,冷却装置本来可以手动启动,但由于如此大型的数据中心缺乏值班工程师,因此无法手动启动。据外媒itnews报道,当时值班的工程师只有三名。
这起事件发生后,不仅给众多拥有数据中心的云服务公司敲响了警钟,同时也引发了“数据中心应该配备多少IT工程师?”的疑。
数据中心冷水机组发生故障,3人团队不足以处理手动重启
回顾整个事件,还得从8月30日澳大利亚悉尼发生的一场严重雷雨天气说起。
据澳大利亚天气预报机构WeatherZone称,当天,该市在短短三小时内就记录了约22,000次雷击,约3万人因风暴停电。
根据微软的审查报告,2023年8月30日UTC时间8:41开始,澳大利亚东部地区停电导致可用区数据中心的部分冷却机组离线。
微软表示,两个受影响数据中心的冷却系统由七台冷水机组成,其中五台正在运行,另外两台在电压骤降事件发生前处于待机状态。
当电压骤降事件发生时,所有正在运行的五台冷水机组均出现故障。此外,只有一台备用设备正在运行。
停电一小时后,现场工程师到达屋顶冷水机组区域,立即执行记录在案的紧急操作程序(EOP),但未能成功重启冷水机组。
失败的原因可能是现场人员不足。微软表示,“由于数据中心园区规模较大,夜间团队的人员配备不足以及时重启冷水机组。”当时,校园内只有三名现场人员。
关闭服务器以冷却
当然,除了现场人员不足之外,冷水机本身也存在一定的故障。
初步调查显示,当时正在运行的5台冷水机组在故障后并未自动重启,原因是对应的水泵没有收到冷水机组的运行信号。
微软在报告中写道“这很重要,因为它是冷水机组成功重启的关键。”“我们正在与我们的OEM供应商合作,调查为什么冷水机组没有命令其各自的泵启动。”
因此,出现故障的冷水机组无法手动重启,导致冷冻水回路温度超过阈值。
这种状态一直持续到当天的11:34,此时受影响的数据中心内的组件开始发出基础设施过热警告,并提示关闭选定的计算、网络和存储基础设施。根据最初的内部设计,关闭这些功能可以保护数据持久性和基础设施的健康状况。
无奈之下,当晚值班的微软工程师无奈关闭了两台受影响的服务器。
复苏之路艰难
幸运的是,关闭服务器以减少热负荷的做法奏效了,“成功地将冷冻水回路温度降低到所需阈值以下,并恢复了冷却能力,”微软在报告中写道。
尽管如此,并非一切都在顺利恢复。
根据初步审查报告,当天15:10小时所有硬件恢复供电,随后存储基础设施开始恢复上线。然而,随着底层计算和存储规模单元上线,依赖的Azure服务也开始恢复,但有些服务在恢复上线时遇到了题。
从存储角度来看,有7个租户受到影响,其中包括5个标准存储租户和2个高级存储租户。尽管所有存储数据都跨多个存储服务器进行备份,但在某些情况下,由于多个受影响的存储服务器出现故障和延迟,所有备份均不可用。
导致存储基础设施恢复全部功能延迟的三个主要因素
其一,由于之前数据中心温度升高,一些存储硬件遭到损坏,需要进行大量故障排除。由于存储节点本身并未在线,诊断无法识别故障,因此现场数据中心团队需要手动删除组件并一一重新安装,以确定哪些特定组件导致每个节点无法启动。
其次,需要更换多个组件才能成功恢复数据并恢复受影响的节点。为了完全恢复数据,需要在各自的服务器上临时重新安装一些原始/故障组件。
第三,系统的代码自动化也失败了。它错误地批准了过时的请求,并将一些健康的节点标记为不健康,这减慢了存储恢复工作。
另外,从SQL的角度来看,一旦受影响的数据中心完全恢复供电,整个服务就会受到依赖服务恢复进度的影响。所谓依赖服务主要是指Azure标准存储产品。在恢复这些高级Azure存储服务之前,许多通用数据库仍然不可用。
同时,微软表示其托管超过25万个SQL数据库的租户环存在多种故障模式,有些数据库可能完全不可用,有些可能会遇到间歇性连接题,有些可能完全可用。
这使得他们很难总结哪些客户仍然受到影响。因此,当现场工程师进一步尝试将数据库移出受影响的环时,他们发现SQL并不是经过充分测试的工具。
在各种挑战下,停机时间越来越长。据初步分析报告,8月30日发生的断电终于在9月1日成功恢复到所有标准存储租户的06:40。
如何避免此类事件发布的可能性或影响?
该报告是对微软在事件发生三天内立即进行事后调查的分析,预计将在14天内发布完整的服务中断报告。
基于这一初步分析,微软表示从数据中心供电/冷却的角度吸取了以下经验和教训
由于数据中心园区规模较大,夜间团队人手不足,无法重新启动冷水机组。它会暂时增加团队规模,直到更好地理解根本题并实施适当的缓解措施。
对于如此严重的事件,重启冷水机的EOP执行速度很慢。基于此,微软正在探索改进现有自动化的方法,以增强对各种类型电压暂降事件的恢复能力。
展望未来,Microsoft还在评估如何确保对不同冷水机子集的负载情况进行优先级排序,以便首先在最高负载情况下重新启动冷水机。
在工作负载故障转移和设备中断的排序中使用剧本可以导致不同的优先级和更好的洞察力。Microsoft正在致力于改进冷冻水温度报告,以便根据阈值做出更及时的故障转移/关闭决策。
数据中心应该有多少运维人员?
上述事件发生后,虽然微软表示将增加团队成员数量,但在不少网友看来,这其实并不是人为题。
dijit网友说道
我认为人们真的忘记了如何运行数据中心。很多人认为运营是一件非常困难的事情,需要成千上万的员工。我知道AWS/GCP/Azure喜欢向我们收费,就好像我们正在雇用一支系统管理员大军一样,但事实是,日常DC运营并不需要那么多人。硬件故障比您想象的要少得多,您可以修复它们而不必惊慌。
也有网友直言,“或许管理层的想法只是为了‘多招人,花买安心’”。只是这种寻找内心平静的时刻永远不会到来,因为云每年都变得越来越复杂,而且很难跟上。”
你怎么看呢?
参考
本篇解完毕了关于仅3名工程师值夜班、无奈关服务器,微软Azure澳洲数据中心宕机超24小时!的话题,和一些天气预报一个月都没有了相关题,希望帮帮助到各位。