论坛风格切换
 
  • 帖子
  • 日志
  • 用户
  • 版块
  • 群组
帖子
购买邀请后未收到邀请联系sdbeta@qq.com
  • 74阅读
  • 0回复

[业界新闻]Deepseek-R1 等 AI 模型测试:英伟达 GB200 NVL72 性能较 HGX 200 提升 10 倍 [复制链接]

上一主题 下一主题
 

发帖
10489
今日发帖
最后登录
2025-12-27
只看楼主 倒序阅读 使用道具 楼主  发表于: 2025-12-04 13:51:40
科技媒体 Wccftech 昨日(12 月 3 日)发布博文,报道称在“混合专家”模型上,英伟达的 GB200 NVL72 AI 服务器取得重大性能突破。 AjK'P<:/  
g~Zel}h#  
^~2GhveBV  
Y`3>i,S6\  
基于开源大语言模型 Kimi K2 Thinking、Deepseek-R1-0528、Mistral Large 3 测试,相比上一代 Hopper HGX 200 性能提升 10 倍。 <ok/2v  
J]~LmSh  
注:混合专家模型(MoE)是一种高效的 AI 大模型架构。它不像传统模型那样在处理每个任务时都动用全部“脑力”(参数),而是像一个专家团队,根据任务类型只激活一小部分最相关的“专家”(参数子集)来解决问题。这样做能显著降低计算成本,提高处理速度。 n=n!Hn  
#!KbqRt  
就像人脑使用特定区域执行不同任务一样,混合专家模型使用路由器来选择最相关的专家来生成每个 token。 |b52JF ",  
e@6<mir[4  
自 2025 年初以来,几乎所有领先的前沿模型都采用 MoE 设计 d:6?miMH]t  
keEyE;O}u  
英伟达为了解决 MoE 模型扩展时遇到的性能瓶颈,采用了“协同设计”(co-design)的策略,该方法整合了 GB200 的 72 芯片配置、高达 30TB 的快速共享内存、第二代 Transformer 引擎以及第五代 NVLink 高速互联技术。 <IGQBu#ZH  
 tQB+_q z  
通过这些技术的协同工作,系统能够高效地将 Token 批次拆分并分配到各个 GPU,同时以非线性速率提升通信量,从而将专家并行计算(expert parallelism)提升至全新水平,最终实现了性能的巨大飞跃。 Ex~[Hk4ow  
_YY:}'+  
除了硬件层面的协同设计,英伟达还实施了多项全栈优化措施来提升 MoE 模型的推理性能。例如,NVIDIA Dynamo 框架通过将预填充(prefill)和解码(decode)任务分配给不同的 GPU,实现了任务的解耦服务,允许解码阶段以大规模专家并行方式运行。 g6k@E,cI_  
z{cIG8z  
同时,系统还采用了 NVFP4 格式,这种数据格式在保持计算精度的同时,进一步提高了性能和效率,确保了整个 AI 计算流程的高效稳定。 Kgi%Nd  
!12W(4S5  
该媒体指出,此次 GB200 NVL72 取得的性能突破,对英伟达及其合作伙伴具有重要意义。这一进展成功克服了 MoE 模型在扩展时面临的计算瓶颈,从而能够满足日益增长的 AI 算力需求,并巩固了英伟达在 AI 服务器市场的领先地位。 UjwA06  
o-B9r+N  
veg\A+:'  
GB200 NVL72,图源:英伟达 yw2^kk93|