论坛风格切换
 
  • 帖子
  • 日志
  • 用户
  • 版块
  • 群组
帖子
购买邀请后未收到邀请联系sdbeta@qq.com
  • 37阅读
  • 0回复

[业界新闻]Anthropic 示警:AI 执行力逼近甚至超过人类,方向把控等方面人类仍具优势 [复制链接]

上一主题 下一主题
 

发帖
11887
今日发帖
最后登录
2026-06-15
只看楼主 倒序阅读 使用道具 楼主  发表于: 2026-06-10 14:39:35
Anthropic 于 6 月 5 日发布博文,指出人工智能(AI)已开始加速 AI 本身研发,正迈步走向递归自我改进。 a.?v*U@z@#  
!K[/L< Kv  
注:递归自我改进(recursive self-improvement)是指 AI 系统能够自主设计、训练、评估并迭代自己的下一代版本,形成“自己改进自己”的闭环。 69Nw/$  
sm1;MF]/u  
这一概念被视为 AI 发展中的关键分水岭,一旦闭环成立,技术进步速度可能更多取决于算力、基础设施与验证机制,而不再主要受限于人工研发节奏。 Jn=42Q:>  
T '.[F  
该博文强调这一阶段尚未到来,也并非必然发生,但相关信号已比多数机构准备得更早、更强。 FY8!g'.Oe  
gY!N3 *:  
首先是能力加速。Anthropic 援引公开基准称,AI 可稳定独立完成任务的时长约每 4 个月翻倍: _%{0?|=  
qbb6,DL7J  
    2024 年 3 月,Claude Opus 3 可完成约 4 分钟的软件任务; p;0 PxL=  
^2E hlK^)  
    2025 年 3 月,Claude Sonnet 3.7 可处理约 1.5 小时任务; Yrxk Kw#  
qEQAn/&  
    2026 年 3 月,Claude Opus 4.6 已能处理 12 小时任务。 !{(ls<  
oSY7IIf%L  
在公开基准上,模型进步也很快。SWE-bench 衡量真实软件工程修复能力,模型在 2 年内从个位数成绩逼近饱和。 $e BQH  
9OyNi  
CORE-Bench 测试复现实验论文结果的能力,AI 在 2024 年约 20% 的成功率,在 15 个月后已接近饱和。METR 还发现,Claude Mythos Preview 连续工作时长至少达到 16 小时,已接近现有任务集可测上限。 )Q]w6he3  
L+.H z&*@  
在 Anthropic 内部,截至 2026 年 5 月,超过 80% 的合入代码由 Claude 编写;在 Claude Code 于 2025 年 2 月进入研究预览前,这一比例还只是个位数。 *g_w I%l  
BqB |Fo  
随着模型从代码建议走向自主运行与长时任务处理,工程师人均日合入代码量明显抬升,2026 年 Q2 典型工程师较 2024 年达到 8 倍。不过文中也提醒,代码行数偏重数量,不能等同真实生产率。 \lEkfcc  
=We2^W-{  
除代码产出外,Claude 在执行复杂任务上的效果也更强。Anthropic 员工 2026 年 3 月一项覆盖 130 人的调查显示,受访者估计在 Mythos Preview 帮助下,产出中位数约为无 AI 时的 4 倍。 9 Kbw GmSU  
2JZdw  
2026 年 4 月,Claude 还完成超过 800 项修复,将一类 API 错误压低到原来的 1/1000,负责监督的工程师估计,若纯靠人工可能要花 4 年。 O9^T3~x[V  
Qdu$Os  
Anthropic 文章反复强调,当前人类优势仍集中在研究判断、问题选择、结果信任与方向把控上。当前 AI 在“执行”上逼近甚至超过人类,但在“决定做什么”上仍有差距。 ARF\fF|<2  
6\n?4 8x}  
Anthropic 还透露 AI 自我改进并不会凭空爆发,它仍受算力约束。即便 Claude 能写更多代码,企业若想把这种闭环推向更高强度,仍需要更大规模计算资源。 3z3_7XI