论坛风格切换
 
  • 帖子
  • 日志
  • 用户
  • 版块
  • 群组
帖子
购买邀请后未收到邀请联系sdbeta@qq.com
  • 16阅读
  • 0回复

[业界新闻]Deepseek-R1 等 AI 模型测试:英伟达 GB200 NVL72 性能较 HGX 200 提升 10 倍 [复制链接]

上一主题 下一主题
 

发帖
10274
今日发帖
最后登录
2025-12-04
只看楼主 倒序阅读 使用道具 楼主  发表于: 2025-12-04 13:51:40
科技媒体 Wccftech 昨日(12 月 3 日)发布博文,报道称在“混合专家”模型上,英伟达的 GB200 NVL72 AI 服务器取得重大性能突破。 |#:dC #  
cN}A rv  
^.kAZSgO  
2$zq (  
基于开源大语言模型 Kimi K2 Thinking、Deepseek-R1-0528、Mistral Large 3 测试,相比上一代 Hopper HGX 200 性能提升 10 倍。 }_(^/pnk  
'ag6B(0Z  
注:混合专家模型(MoE)是一种高效的 AI 大模型架构。它不像传统模型那样在处理每个任务时都动用全部“脑力”(参数),而是像一个专家团队,根据任务类型只激活一小部分最相关的“专家”(参数子集)来解决问题。这样做能显著降低计算成本,提高处理速度。 -s%-*K+,W  
s8Ry}{  
就像人脑使用特定区域执行不同任务一样,混合专家模型使用路由器来选择最相关的专家来生成每个 token。 o/ g+Z  
%iL@:'?K  
自 2025 年初以来,几乎所有领先的前沿模型都采用 MoE 设计 \.;ct  
>l< ~Z;  
英伟达为了解决 MoE 模型扩展时遇到的性能瓶颈,采用了“协同设计”(co-design)的策略,该方法整合了 GB200 的 72 芯片配置、高达 30TB 的快速共享内存、第二代 Transformer 引擎以及第五代 NVLink 高速互联技术。 ph12x: @B  
dFP-(dX#  
通过这些技术的协同工作,系统能够高效地将 Token 批次拆分并分配到各个 GPU,同时以非线性速率提升通信量,从而将专家并行计算(expert parallelism)提升至全新水平,最终实现了性能的巨大飞跃。 C:GHP$/}  
z5&%T}$tJ  
除了硬件层面的协同设计,英伟达还实施了多项全栈优化措施来提升 MoE 模型的推理性能。例如,NVIDIA Dynamo 框架通过将预填充(prefill)和解码(decode)任务分配给不同的 GPU,实现了任务的解耦服务,允许解码阶段以大规模专家并行方式运行。 4IP\iw#w  
LH/&\k  
同时,系统还采用了 NVFP4 格式,这种数据格式在保持计算精度的同时,进一步提高了性能和效率,确保了整个 AI 计算流程的高效稳定。 a3dzok  
i=X*  
该媒体指出,此次 GB200 NVL72 取得的性能突破,对英伟达及其合作伙伴具有重要意义。这一进展成功克服了 MoE 模型在扩展时面临的计算瓶颈,从而能够满足日益增长的 AI 算力需求,并巩固了英伟达在 AI 服务器市场的领先地位。 ]AZ\5C-J  
RTgA[O4J  
H")N_BB  
GB200 NVL72,图源:英伟达 yg-FJ/