中科曙光发布百万卡AI超集群,开放架构能否打破算力垄断?

在2025重庆世界智能产业博览会上,中科曙光正式发布了国内首个基于AI计算开放架构设计的曙光AI超集群系统。这一系统以GPU为核心,实现了算力、存储、网络、供电、冷却、管理与软件的一体化紧耦合设计,旨在为万亿参数大模型训练、行业模型微调、多模态开发及AI4S等场景提供底层算力支持。其最大亮点在于支持百万卡级别的集群扩展能力,并强调硬件与软件生态的开放性,引发行业对算力垄断格局可能被打破的讨论。

从技术架构来看,曙光AI超集群表现出显著性能优势。单机柜支持96张GPU卡,总算力达百P级,内存带宽超过180TB/s,支持多精度与混合精度运算。在实际应用中,千卡集群的大模型训练推理性能达业界主流水平的2.3倍,开发效率提升4倍,人天投入减少70%。其通过存算传协同技术将GPU计算效率提升55%,并采用冷板液冷与394项节能设计,使PUE低于1.12,在能效方面也处于行业领先水平。

更重要的是,该系统在可靠性与开放性上实现双重突破。121项可靠性设计使平均无故障时间提高2.1倍,平均故障修复时间降低47%,支持超30天长稳运行与百万级部件故障的秒级隔离。而开放架构则支持多品牌AI加速卡,兼容CUDA等主流软件生态,不仅降低用户的硬件采购与软件开发成本,也有助于保护已有投资,避免被单一技术路线绑定。

从行业现状来看,全球AI算力市场目前仍由少数企业主导,尤其在高端加速卡与底层软件生态方面存在较高的技术壁垒和商业垄断。曙光AI超集群所倡导的开放路径,在一定程度上可促进硬件异构兼容与软件生态互通,为更多企业提供替代方案,有助于构建多元化的算力供应体系。

然而,能否真正“打破垄断”,仍需客观看待其面临的挑战。一方面,现有主流生态已形成较强的用户黏性与开发生态,新架构需在工具链、性能调优、社区支持等方面持续投入;另一方面,开放架构虽然降低准入门槛,但如何在规模部署中保持稳定性与兼容性,仍需经过大规模应用验证。

总体而言,曙光AI超集群的发布是中国在高端AI算力基础设施领域的一次重要进展,其开放架构理念为行业提供了新的发展思路。但从技术到市场、从生态到服务,能否真正改变现有算力格局,仍需产业各方共同推动与时间检验。在AI竞争日益激烈的全球背景下,开放合作与自主创新并重,或许是构建可持续算力未来的更优路径。

(注:本文在资料搜集、框架搭建及部分段落初稿撰写阶段使用了 AI 工具,最终内容经人类编辑核实事实、调整逻辑、优化表达后完成。)

(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

本文来源于极客网,原文链接: https://www.fromgeek.com/ai/702677.html

分类: 暂无分类 标签: 暂无标签

评论