亚马逊云科技发布72卡Blackwell GPU实例 算力飙升20倍
亚马逊云科技发布72卡Blackwell GPU实例 算力飙升20倍
在生成式AI技术快速发展的背景下,云计算巨头亚马逊云科技近日宣布推出基于NVIDIA Grace Blackwell Superchips的全新Amazon EC2 P6e-GB200 UltraServer实例,这是该公司迄今为止最强大的GPU产品。该实例专为训练和部署最大规模、最复杂的AI模型而设计,标志着云计算AI基础设施进入新纪元。
技术规格突破
P6e-GB200 UltraServer搭载了72个NVIDIA Blackwell GPU,通过第五代NVIDIA NVLink互连形成一个单一计算单元。这一配置提供了惊人的360 petaflops FP8算力,以及13.4TB的高带宽显存(HBM3e)。与上一代P5en实例相比,计算能力提升超过20倍,内存容量提升超过11倍。此外,该实例还支持高达28.8 Tbps的第四代Elastic Fabric Adapter(EFAv4)网络带宽,为大规模AI工作负载提供了充足的网络吞吐能力。
性能对比
亚马逊云科技今年早些时候已推出基于NVIDIA Blackwell GPU的Amazon EC2 P6-B200实例,每个实例配备8个NVLink互连的Blackwell GPU。相比之下,P6e-GB200 UltraServer在单NVLink域内的计算能力是P6-B200实例的9倍,显存容量是其9.57倍。这种性能飞跃使得训练像GPT-4这样的大型语言模型的时间可以大幅缩短。
多样化部署方案
亚马逊云科技提供了多种部署路径来简化新实例的使用流程。客户可以通过Amazon SageMaker HyperPod使用这些新实例,该服务将优化工作负载以保持在同一个NVLink域内运行,确保性能最大化。同时,亚马逊还构建了一套完整的多层级恢复机制,可以自动替换故障节点,并提供全面的监控仪表板。
与NVIDIA深度合作
值得注意的是,P6e-GB200 UltraServer也将通过NVIDIA DGX Cloud平台提供。这个统一的AI平台集成了英伟达完整的AI软件栈,客户可以获得最新的性能优化方案和技术支持。这种合作模式为需要专业AI支持的企业提供了更多选择。
市场影响
这一发布正值AI行业对算力需求激增之际。随着大模型参数量持续增长,训练成本已成为制约AI发展的重要因素。亚马逊云科技此次推出的高性能实例,不仅为研究机构和科技公司提供了更强大的计算资源,还可能加速新一代AI技术的研发进程。
未来展望
亚马逊云科技表示,这些新实例将首先面向特定客户开放,随后逐步扩大可用范围。随着Blackwell架构GPU的普及,我们可以预期生成式AI模型的训练和推理效率将得到显著提升,这可能为AI应用开辟新的可能性。
这一重大技术升级展示了云计算厂商在AI基础设施领域的持续创新,也预示着未来AI研发将获得更强大的计算支持。随着硬件性能的不断提升,AI模型的规模和能力边界有望进一步扩展。
本文来源于极客网,原文链接: https://www.fromgeek.com/latest/696533.html
本网站的所有内容仅供参考,网站的信息来源包括原创、供稿和第三方自媒体,我们会尽力确保提供的信息准确可靠,但不保证相关资料的准确性或可靠性。在使用这些内容前,请务必进一步核实,并对任何自行决定的行为承担责任。如果有任何单位或个人认为本网站上的网页或链接内容可能侵犯其知识产权或存在不实内容,请及时联系我们沟通相关文章并沟通删除相关内容。
评论