亚马逊云科技发布72卡Blackwell GPU实例 算力飙升20倍

在生成式AI技术快速发展的背景下,云计算巨头亚马逊云科技近日宣布推出基于NVIDIA Grace Blackwell Superchips的全新Amazon EC2 P6e-GB200 UltraServer实例,这是该公司迄今为止最强大的GPU产品。该实例专为训练和部署最大规模、最复杂的AI模型而设计,标志着云计算AI基础设施进入新纪元。

技术规格突破

P6e-GB200 UltraServer搭载了72个NVIDIA Blackwell GPU,通过第五代NVIDIA NVLink互连形成一个单一计算单元。这一配置提供了惊人的360 petaflops FP8算力,以及13.4TB的高带宽显存(HBM3e)。与上一代P5en实例相比,计算能力提升超过20倍,内存容量提升超过11倍。此外,该实例还支持高达28.8 Tbps的第四代Elastic Fabric Adapter(EFAv4)网络带宽,为大规模AI工作负载提供了充足的网络吞吐能力。

性能对比

亚马逊云科技今年早些时候已推出基于NVIDIA Blackwell GPU的Amazon EC2 P6-B200实例,每个实例配备8个NVLink互连的Blackwell GPU。相比之下,P6e-GB200 UltraServer在单NVLink域内的计算能力是P6-B200实例的9倍,显存容量是其9.57倍。这种性能飞跃使得训练像GPT-4这样的大型语言模型的时间可以大幅缩短。

多样化部署方案

亚马逊云科技提供了多种部署路径来简化新实例的使用流程。客户可以通过Amazon SageMaker HyperPod使用这些新实例,该服务将优化工作负载以保持在同一个NVLink域内运行,确保性能最大化。同时,亚马逊还构建了一套完整的多层级恢复机制,可以自动替换故障节点,并提供全面的监控仪表板。

与NVIDIA深度合作

值得注意的是,P6e-GB200 UltraServer也将通过NVIDIA DGX Cloud平台提供。这个统一的AI平台集成了英伟达完整的AI软件栈,客户可以获得最新的性能优化方案和技术支持。这种合作模式为需要专业AI支持的企业提供了更多选择。

市场影响

这一发布正值AI行业对算力需求激增之际。随着大模型参数量持续增长,训练成本已成为制约AI发展的重要因素。亚马逊云科技此次推出的高性能实例,不仅为研究机构和科技公司提供了更强大的计算资源,还可能加速新一代AI技术的研发进程。

未来展望

亚马逊云科技表示,这些新实例将首先面向特定客户开放,随后逐步扩大可用范围。随着Blackwell架构GPU的普及,我们可以预期生成式AI模型的训练和推理效率将得到显著提升,这可能为AI应用开辟新的可能性。

这一重大技术升级展示了云计算厂商在AI基础设施领域的持续创新,也预示着未来AI研发将获得更强大的计算支持。随着硬件性能的不断提升,AI模型的规模和能力边界有望进一步扩展。

本文来源于极客网,原文链接: https://www.fromgeek.com/latest/696533.html

分类: 暂无分类 标签: 暂无标签

评论