论坛风格切换
 
  • 帖子
  • 日志
  • 用户
  • 版块
  • 群组
帖子
购买邀请后未收到邀请联系sdbeta@qq.com
  • 77阅读
  • 0回复

[业界新闻]OpenAI推出GPT‑5.4 面向专业工作的新一代旗舰模型 [复制链接]

上一主题 下一主题
 

发帖
11287
今日发帖
最后登录
2026-04-03
只看楼主 倒序阅读 使用道具 楼主  发表于: 2026-03-06 10:00:48
  周四,OpenAI正式发布新一代基础模型GPT‑5.4,将其定位为“迄今最强大、最高效、面向专业工作的前沿模型”。除标准版本外,OpenAI同步推出强调复杂推理能力的GPT‑5.4 Thinking,以及面向高性能应用场景的GPT‑5.4 Pro两个变体。 MUB37  
NocFvF7\  
  在模型能力方面,GPT‑5.4的API版本支持最高100万token的上下文窗口,远超OpenAI此前提供的任何模型,有利于处理长文档、复杂项目或多轮任务等长链条工作流。OpenAI同时强调了token使用效率的提升,称GPT‑5.4能以显著更少的token完成与前代模型相同难度的任务,从而在成本与响应速度上形成优势。 Mc:b U  
IkU|W3Vo  
  最新基准测试结果显示,GPT‑5.4在多个权威评测中取得大幅领先,包括在OSWorld‑Verified和WebArena Verified这两项“电脑操作”场景测试中刷新纪录,并在OpenAI自有的知识工作评估集GDPval上拿到83%的最高分。在由初创公司Mercor设立、针对法律和金融等专业技能的APEX‑Agents基准中,GPT‑5.4也位居首位。 QLn+R(r  
5j`v`[B;  
  Mercor首席执行官Brendan Foody在声明中表示,GPT‑5.4在制作长周期成果物方面表现突出,包括演示文稿、财务模型和法律分析等,“在保持顶级表现的同时,比同类前沿模型更快、成本更低”。 R:f7LRF/\  
f1J %]g!  
  在可靠性方面,GPT‑5.4延续了OpenAI减少“幻觉”和事实性错误的研发方向。官方给出的内部评估结果显示,相较GPT‑5.2,新模型在单条陈述层面出现错误的概率降低33%,整体回答中出现错误内容的概率则下降18%。 {@45?L('  
5 < GDW=  
  此次发布还伴随一项重要的API层改动:OpenAI推出名为Tool Search的新工具调用机制。在旧方案中,系统提示必须一次性向模型注入所有可用工具的定义,随着工具数量增加,这部分提示本身就会大量占用token。新的Tool Search则允许模型按需查询工具定义,从而在工具规模较大的系统中显著减少开销,使调用更快、成本更低。 jq[x DwPG  
2uL9.q  
  围绕安全性与可控性,OpenAI此次增加了新的安全评估,用于测试模型在多步任务中的“思维链”(chain‑of‑thought)表现。研究者长期担心,具备推理能力的模型可能在链式思考过程中“伪装”或隐藏真实推理路径,已有研究表明,在特定条件下这种情况确实可能发生。OpenAI给出的新评估结果显示,在GPT‑5.4 Thinking这一版本中,这类“欺骗性”表现出现的概率更低,“这表明模型缺乏主动隐藏推理过程的能力,思维链监控依然是有效的安全工具”。 / gu3@@h  
hbfsHT  
  通过GPT‑5.4及其Pro与Thinking版本的同步推出,OpenAI试图在专业生产力、成本效率和安全可控之间找到新的平衡点,将大模型进一步推向法律、金融和知识工作等高价值场景。 rREzM)GA