
华为昇腾384超节点亮相世界人工智能大会获评镇馆之宝,算力性能大幅提升

在7月26日的世界人工智能大会上华为首次展出了昇腾384超节点真机并获评“镇馆之宝”。
昇腾384超节点由12个计算柜和4个总线柜构成,实现了业界最大规模的384个NPU卡高速总线互联。
该超节点采用“全对等架构”,打破了传统以CPU为中心的架构,通过高速互联总线将CPU、NPU、DPU、存储和内存等资源全部互联和池化,实现点对点互联,提升了算力密度和互联带宽。其算力总规模达300Pflops,网络互联总带宽达269TB/s,内存总带宽达1229TB/s,单卡推理吞吐量达2300Tokens/s,相比英伟达NVL72方案,算力、带宽等性能大幅提升。
此外,昇腾超节点还可扩展为Atlas900SuperCluster超节点集群,支撑更大规模模型演进。
在性能测试中,LLaMA3等千亿稠密模型性能相比传统集群提升2.5倍以上,多模态、MoE模型性能提升可达3倍以上。