科技媒体 Wccftech 昨日(12 月 3 日)发布博文,报道称在“混合专家”模型上,英伟达的 GB200 NVL72 AI 服务器取得重大性能突破。
2E2J=Do
A7|"0*62
Y60ld7H
92
Pp.Rh 基于开源大语言模型 Kimi K2 Thinking、Deepseek-R1-0528、Mistral Large 3 测试,相比上一代 Hopper HGX 200 性能提升 10 倍。
b;m6m4i'f{ >454Yir0Mk 注:混合专家模型(MoE)是一种高效的 AI 大模型架构。它不像传统模型那样在处理每个任务时都动用全部“脑力”(参数),而是像一个专家团队,根据任务类型只激活一小部分最相关的“专家”(参数子集)来解决问题。这样做能显著降低计算成本,提高处理速度。
KDQux
s|,gn 5 就像人脑使用特定区域执行不同任务一样,混合专家模型使用路由器来选择最相关的专家来生成每个 token。
4eaC18?
VIi|:k 自 2025 年初以来,几乎所有领先的前沿模型都采用 MoE 设计
i7fpl R>gj"nB 英伟达为了解决 MoE 模型扩展时遇到的性能瓶颈,采用了“协同设计”(co-design)的策略,该方法整合了 GB200 的 72 芯片配置、高达 30TB 的快速共享内存、第二代 Transformer 引擎以及第五代 NVLink 高速互联技术。
M9f*7{c v S%+ 通过这些技术的协同工作,系统能够高效地将 Token 批次拆分并分配到各个 GPU,同时以非线性速率提升通信量,从而将专家并行计算(expert parallelism)提升至全新水平,最终实现了性能的巨大飞跃。
S$JM01 3\D jV2t 除了硬件层面的协同设计,英伟达还实施了多项全栈优化措施来提升 MoE 模型的推理性能。例如,NVIDIA Dynamo 框架通过将预填充(prefill)和解码(decode)任务分配给不同的 GPU,实现了任务的解耦服务,允许解码阶段以大规模专家并行方式运行。
7ky(g'
1Kc*MS 同时,系统还采用了 NVFP4 格式,这种数据格式在保持计算精度的同时,进一步提高了性能和效率,确保了整个 AI 计算流程的高效稳定。
Iv/yIS oTx#e[8f{ 该媒体指出,此次 GB200 NVL72 取得的性能突破,对英伟达及其合作伙伴具有重要意义。这一进展成功克服了 MoE 模型在扩展时面临的计算瓶颈,从而能够满足日益增长的 AI 算力需求,并巩固了英伟达在 AI 服务器市场的领先地位。
4F:RLj9P!
o@pM??&x
u:,B"! GB200 NVL72,图源:英伟达
:K8T\