合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
信息和正常运行时间变得越来越有价值,这提高了数据中心冗余的重要性。
停机的成本高昂,而且随着时间的推移只会变得更加严重,因此组织必须尽一切努力防止意外停机。 数据中心冗余是实现这一目标的最重要因素之一。
数据中心冗余是指使用重复的组件,以便在某些组件发生故障时保持运行不中断,并在维护期间维持正常运行时间。 根据 Uptime Institute 2022 年的一项研究,由于与电力相关的问题导致 43% 的数据中心重大停机,因此不间断电源 (UPS) 和发电机是最常见的冗余目标之一。 冷却系统是另一个需要备份的常见组件,因为它们的故障可能会导致严重问题。
虽然数据中心冗余意味着在硬件上花费更多,但数据中心停机成本的上升证明了较高的前期费用是合理的。 Statista 在 2022 年的一项研究中发现,2019 年,25% 的企业因单小时企业服务器停机而造成的损失在 301,000 美元至 400,000 美元之间。 对于许多组织来说,价格甚至更高,并且随着数据访问和云服务在业务中发挥核心作用,价格还将继续攀升。
冗余可以最大限度地减少公司陷入高成本的可能性,帮助组织更快地从中断中恢复,并在发生中断时保持基础设施运行。 冗余还可以帮助组织确保满足服务级别协议。
许多企业正在增加数据收集和分析,因为它可以改善决策、简化运营等。 然而,这种趋势使组织手头掌握了大量敏感信息,一旦发生泄露,就会引发法律和道德问题。 冗余有助于确保数据技术在某些组件发生故障时正常工作,从而减少这些漏洞的机会。
数据中心冗余有不同的级别。 想要对其数据中心架构做出最明智决策的企业必须了解这些级别及其含义。
冗余级别以 N 的概念为中心,这意味着满负荷运行数据中心所需的最低基础设施。 例如,如果数据中心需要四个 UPS 设备来运行,则 N 代表四个设备。 N 还适用于其他组件,例如冷却系统、网络系统、存储系统等。
最低级别的冗余是N+1,这意味着数据中心有一个额外的组件。 类似地,N+2 架构为给定的 N 值提供两个冗余组件。
N+1 是比 N+2 更常见的架构,因为它支持冗余并最大限度地降低硬件成本。 许多组织可能因为其成本效益而更喜欢 N+1,因为他们可以购买更少的硬件。
2N 代表 100% 冗余,其中数据中心对其所需组件具有相同的备份。 在数据中心中,N 是 UPS 单元的数量,2N 意味着拥有两倍的数量。 有些架构甚至更进一步,提供 2N+1,这相当于完整的备份加上另一个组件。
N 系统是衡量冗余的一种有用方法,但在实践中,实现最大正常运行时间不仅仅是简单地添加组件。 Uptime Institute 创建了一个分层系统来“解释数据中心运营所需的基础设施”。
主要有四个层次。
一级数据中心是最基础的。这些设施有足够的冗余基础设施来有效运行,但需要更多的冗余。它们可以承受人为错误造成的中断,但不能承受意外中断,必须关闭以进行维护。
二级数据中心包括一些冷却和电力系统冗余,提供更多的正常运行时间。员工可以在不关闭数据中心的情况下移除组件,但大型故障仍然会使数据中心离线。
三级数据中心确保设施中每个组件的冗余。任何一点的故障都不会影响数据中心的运行。不需要停机来更换或维护设备。
四级数据中心代表最大的正常运行时间。这些设施有几个独立和隔离的备份系统,需要2N或2N+冗余级别。这些数据中心不太可能停机,尽管维护它们的成本很高。
任何依赖数据中心运营的组织都需要冗余,但要求因情况而异。 确定业务需要什么级别,并考虑公司的 IT 预算。 请记住潜在停机的成本,因为它的成本可能很高。
IT 团队还应该考虑他们的风险承受能力。 敏感数据很少或云环境不是关键任务的企业可以承受更大的风险,因此 N+1 架构可能就足够了。 然而,如果组织更依赖云或处于监管更严格的行业,则可能需要更多冗余。
在这些决定中考虑法律要求和安全性。 某些法规可能需要更长的正常运行时间。 同样,面临更大网络安全风险的公司应该寻求更高的冗余以减轻网络攻击。 无论组织级别如何,自动化监控工具都可以加速事件响应,帮助防止停机。
TOP