合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
据华尔街日报12月3日报道,亚马逊云计算部门Amazon Web Services(AWS)本周二宣布了两项重要动态,一是宣布打造由数十万颗自研Trainium芯片组成的超级计算机集群“Ultracluster”;二是推出全新服务器“Ultraserver”。
亚马逊云计算
“Ultracluster”是亚马逊位于德克萨斯州奥斯汀的AI芯片设计实验室研发的最新成果,AWS透露“Ultracluster”将用于支持AI初创企业Anthropic的模型训练工作。Anthropic是亚马逊投资的重点对象,并于近期获得了亚马逊追加的40亿美元投资。
这个名为“Project Rainier”的集群项目将位于美国,预计将在2025年投入使用,届时将成为全球最大的AI模型训练集群之一。AWS表示,其Ultracluster项目的计算性能是Anthropic当前训练集群的五倍,能够显著提升AI模型的训练效率。
Ultraserver服务器由64颗自研芯片互联组成,采用创新的设计架构,为客户提供强大的算力支持。Ultraserver通过将64颗芯片集成到一个封装中,组合了四台服务器,每台服务器包含16颗Trainium芯片,相比之下,某些Nvidia的GPU服务器仅包含8颗芯片.
AWS副总裁Dave Brown表示,为了使这些芯片协同工作为一台服务器,AWS利用其网络技术“NeuronLink”实现四台服务器的高效通信,从而将计算能力提升至83.2 PetaFLOPS。AWS表示,从体积来看,Ultraserver更接近于冰箱大小的主机计算机,而非紧凑型个人电脑。
AWS的AI芯片布局始于2018年发布的Inferentia芯片,这是一款专门用于AI推理计算的芯片;2020年,推出首款AI模型训练芯片Trainium;随后在2023年发布了性能更强的Trainium2,目前已经向客户全面开放使用。据AWS透露,下一代Trainium3芯片及基于其的服务器正在开发中,其性能将达到当前版本的四倍。
据统计,2024年全球AI芯片市场规模达1175亿美元,预计到2027年将增长至1933亿美元,其中Nvidia占据约95%的市场份额。AWS首席执行官Matt Garman表示:“目前在GPU领域,几乎只有Nvidia一家选择。但我们相信,客户需要更多的选择。”
TOP