合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
在2023年下半年,越来越多的数据中心因工厂故障而中断。至少可以说,这种突出的增长是不寻常的。
在过去的十年,数据中心的设计已经得到了很大的改进和优化。数据中心设施的规模不断扩大,以满足超大规模的需求。数据中心设施的复杂性不断增加,以充当各种云计算服务和光纤运营商的互连点;数据中心设施的数量不断增加,以满足对空间不断增长的需求。
用于运行数据中心的工厂通常部署2N冗余或更高级别的冗余,以确保满足可用性和正常运行时间指标。虽然曾经有过发电机组在需要时无法启动和承担生产负荷的情况,但随着数据中心运营商对冗余系统进行更彻底和定期的测试,这些情况正在减少。
在这种情况下,越来越多的故障被认为是导致数据中心中断的原因,而数据中心中断又会导致云计算服务和应用程序的损失,这些服务和应用程序使用的服务器耗尽了这些数据中心设施的资源,这可能会让人感到有些惊讶。
但是,对于这些工厂故障的增加,有一些看似合理的解释。
气候是一个显而易见的解释:在过去的一年里,数据中心设施的停电往往与高温或风暴等极端天气事件同时发生。
在极端高温期间,电网普遍存在压力。对于数据中心运营商来说,这可能会导致电力质量波动,例如浪涌和限电,并且可能需要使用现场工厂自己产生一些电力,以平稳供应并继续为IT设备提供服务。冷水机组也必须更加努力地将数据地板温度保持在指定的安全范围内。
另一方面,风暴带来了一系列不同的问题。雷击可以摧毁现场变电站和一个或多个电力来源。也有冰雹或暴雨导致水进入设备层,损坏设备并使受影响地区的配电装置短路的情况发生。
虽然天气状况可以解释一些数据中心的中断,但其他中断似乎是另一种现象的结果:在这些数据中心处理的计算密集型、数据驱动的工作负载的增加。对于较旧的数据中心,这些工作量使机架密度远远超过现有规格,导致正在进行冷却器和其他数据中心设施升级和更换项目的此类设施数量增加。
一些数据中心运营商通过将密集的工作负载分离到更小的、专门建造的、高密度的数据中心来应对。以前,在规模较大的托管数据中心设施中,密集的工作负载将在满足更高机架设备密度的指定房间或数据大厅中运行。传统的机架密度传统上最大约为7kW,高密度区域迎合机架高达50kW。但在当前数据驱动的环境中,机架的最大密度不再是50kW:有些数据中心的功率密度正在向200kW以上的极端密度发展。
显然,不建议使用旧的或更通用的托管数据中心设施来支持这类密集的计算工作负载。将它们托管在专门建造的数据中心设施中更有意义,这些数据中心设施的设计目的是为了做好一件事:通过拥有相匹配的技术空间和设备来支持极端的计算需求。
然而,将密集的工作负载集中到一个较小空间中也不能保证正常运行时间。密集的工作负载并行运行给设施运营商带来了更大的压力,以确保数据中心的正常运行时间。这样的环境包含大量IT设备,这些设备对电力可用性或冷却能力的微小变化更加敏感,任何故障都可能降低或损坏为世界上一些关键基础设施提供数据驱动决策的计算能力。
数据中心故障不断增加的另一个可能的解释是,基础设施被从消费者中抽象出来。应用程序的架构决策是孤立发生的,不需要很好地理解底层基础设施需求。
这是因为平台即服务(PaaS)和无服务器架构的提升意味着开发人员可以专注于编写代码;他们不一定需要了解底层基础设施的来龙去脉,包括如何限制应用程序代码运行所需的处理强度。
此外,应用程序现在经常利用第三方通过API来完成功能。这将把更多的处理需求转移到其他方,并有效地依赖于使用底层基础设施的这些方法。低效的代码意味着基础设施没有有效利用。很明显,这可能会给数据中心带来不适当的压力,以满足更高的处理需求。
在当今的环境中,为了避免猝不及防,有能力检测云服务或应用程序所依赖的数据中心站点上发生的任何降级是至关重要的。这不仅对确保即时正常运行很重要,而且通过减少对任何单个数据中心的依赖来改进云服务或应用程序的设计也很重要。
为了确保无缝的用户体验,云服务和基于web的应用程序的运营商需要能够理解支撑它们的一切。这可能包括对底层基础设施的额外考虑,包括其(数据中心所在位置,以及该数据中心在其设计和冗余设备方面的能力。
TOP