高功率工作负载是否导致数据中心运行崩溃?-服务器–飞度网络科技 - 专业的全球云服务器、服务器租用托管、云安全服务、全球域名注册提供商

高功率工作负载是否导致数据中心运行崩溃?

来源:CTO 日期:2024/4/11 14:12:17 阅读量:(0)

在2023年下半年，越来越多的数据中心因工厂故障而中断。至少可以说，这种突出的增长是不寻常的。

在过去的十年，数据中心的设计已经得到了很大的改进和优化。数据中心设施的规模不断扩大，以满足超大规模的需求。数据中心设施的复杂性不断增加，以充当各种云计算服务和光纤运营商的互连点;数据中心设施的数量不断增加，以满足对空间不断增长的需求。

用于运行数据中心的工厂通常部署2N冗余或更高级别的冗余，以确保满足可用性和正常运行时间指标。虽然曾经有过发电机组在需要时无法启动和承担生产负荷的情况，但随着数据中心运营商对冗余系统进行更彻底和定期的测试，这些情况正在减少。

在这种情况下，越来越多的故障被认为是导致数据中心中断的原因，而数据中心中断又会导致云计算服务和应用程序的损失，这些服务和应用程序使用的服务器耗尽了这些数据中心设施的资源，这可能会让人感到有些惊讶。

但是，对于这些工厂故障的增加，有一些看似合理的解释。

外部条件

气候是一个显而易见的解释:在过去的一年里，数据中心设施的停电往往与高温或风暴等极端天气事件同时发生。

在极端高温期间，电网普遍存在压力。对于数据中心运营商来说，这可能会导致电力质量波动，例如浪涌和限电，并且可能需要使用现场工厂自己产生一些电力，以平稳供应并继续为IT设备提供服务。冷水机组也必须更加努力地将数据地板温度保持在指定的安全范围内。

另一方面，风暴带来了一系列不同的问题。雷击可以摧毁现场变电站和一个或多个电力来源。也有冰雹或暴雨导致水进入设备层，损坏设备并使受影响地区的配电装置短路的情况发生。

高性能的要求

虽然天气状况可以解释一些数据中心的中断，但其他中断似乎是另一种现象的结果:在这些数据中心处理的计算密集型、数据驱动的工作负载的增加。对于较旧的数据中心，这些工作量使机架密度远远超过现有规格，导致正在进行冷却器和其他数据中心设施升级和更换项目的此类设施数量增加。

一些数据中心运营商通过将密集的工作负载分离到更小的、专门建造的、高密度的数据中心来应对。以前，在规模较大的托管数据中心设施中，密集的工作负载将在满足更高机架设备密度的指定房间或数据大厅中运行。传统的机架密度传统上最大约为7kW，高密度区域迎合机架高达50kW。但在当前数据驱动的环境中，机架的最大密度不再是50kW:有些数据中心的功率密度正在向200kW以上的极端密度发展。

显然，不建议使用旧的或更通用的托管数据中心设施来支持这类密集的计算工作负载。将它们托管在专门建造的数据中心设施中更有意义，这些数据中心设施的设计目的是为了做好一件事:通过拥有相匹配的技术空间和设备来支持极端的计算需求。

然而，将密集的工作负载集中到一个较小空间中也不能保证正常运行时间。密集的工作负载并行运行给设施运营商带来了更大的压力，以确保数据中心的正常运行时间。这样的环境包含大量IT设备，这些设备对电力可用性或冷却能力的微小变化更加敏感，任何故障都可能降低或损坏为世界上一些关键基础设施提供数据驱动决策的计算能力。