SWE-bench Verified 30 个月:从 1.96% 到 80.9%,Coding Agent 是怎么做到的

译者注:

这是一篇有现场感的翻译。原文来自 AgentMarketCap,发表于 2026 年 4 月 9 日。文章梳理了 SWE-bench Verified 从诞生到饱和的完整 30 个月 timeline,并用一个统一的框架量化了每个阶段的驱动因子。翻译时做了少量结构调整,加入了一些侧注。


2023 年 10 月,世界上最好的 AI 系统能修复的真实 GitHub issue 大概是 1/50。 2026 年 4 月,这个数字变成了 4/5

这不是一条平缓的改进曲线。这是近乎垂直的飞跃。对任何一个在 production 中押注 AI Coding Agent 的人来说,理解这条曲线上的每个着力点至关重要。

SWE-bench Verified 已经成为这个行业里最接近”客观裁判”的基准。它从 12 个主流 Python 仓库中筛选出 500 个人类验证过的 GitHub issue,每个 issue 都在真实的代码仓库里评测:Agent 要理解 bug、定位根因、写出正确的 patch、并且不能破坏已有测试。

当一个实验室在这个 leaderboard 上贴出一个数字时,整个工程世界都会看。

以下是这个演进过程的完整注记。


第一幕:基线时代(2023.10 — 2024.02)

普林斯顿 NLP 实验室在 2023 年 10 月发布 SWE-bench 时,附带了一个令人沮丧的结果:他们最好的 RAG pipeline——从代码库中检索相关文件片段,塞进 prompt,让 GPT-4 生成 patch——只解决了 1.96% 的 issue。

作为参考,一个有经验的初级开发者能在同样的任务上拿到 50% 以上。

RAG 的方法很粗糙。它检索了可能有用的源文件,塞进一个 prompt,然后让模型直接生成 patch。没有迭代、没有测试反馈、没有能力去交互式地探索代码库。模型基本是在闭卷考试。

几个月后,普林斯顿团队发布了 SWE-agent,给 GPT-4 配上了一个定制的 Agent-Computer Interface(ACI)——一组专门设计的 shell 命令,用来浏览文件、搜索代码库、编辑代码。结果:12.47%

一个单一的架构决策——让模型能和代码库交互,而不是读一个快照——带来了约 6× 的提升。

这是整条 timeline 里最值钱的一个教训:tool access 比模型本身重要得多。


第二幕:Devin 和”AI 能写代码吗?“时刻(2024.03)

2024 年 3 月,Cognition AI 发布了 Devin——被公开称为”世界上第一个 AI 软件工程师”——并提交到了 SWE-bench。分数:13.86%。它几乎没比 SWE-agent 强,但媒体的报道是爆炸性的。

一夜之间,每个工程 leader 都能在董事会的 deck 里引用一个具体的数字了。

比 Devin 的具体分数更重要的是它发出的信号:这个 benchmark 是认真的,媒体在盯着看,每个大实验室的路线图上现在都多了一行:“超过 SWE-bench leaderboard。”

这种竞争压力——而不是任何单一的技术突破——是分数在接下来几个月飞速攀升的真正原因。


第三幕:SWE-bench Verified 和 Scaffolding 竞赛(2024.08 — 2024.11)

2024 年 8 月 13 日是一个转折点。OpenAI 和普林斯顿联合发布了 SWE-bench Verified——一个人工验证的 500 任务子集,剔除了原始数据集中那些描述模糊、预期行为不明确的 issue。新版本的基线:GPT-4o 在 33.2%

这个 33% 成了新的起跑线,scaffolding 竞赛自此开始。

整个 2024 年秋季,提交蜂拥而至:

提交方分数架构
GPT-4o(裸模型)33.2%无 scaffold
Devlo47.3%多步 pipeline + Claude 3.5 Sonnet
Globant Code Fix48.3%Agentic loop + 工具使用
GRU48.67%多 Agent + GPT-4

模式是一致的:每个高分提交都用了 agentic scaffolding——不仅仅是更好的模型。

Anthropic 直接证实了这个效应:Claude 3.5 Sonnet 配上 agentic harness(能写文件、跑测试、根据失败迭代)达到了 49.0%——当时公开模型中的最高分。这个数字是同一个模型用简单 prompting 方法的 三倍

从 33% 到 49% 的 +16 分,驱动力几乎全部来自 scaffold,而不是模型本身。这也是”Agent = Model + Harness”这个公式的来源。


第四幕:推理模型突破 60 分天花(2024.12 — 2025.03)

下一个飞跃需要不同的成分:推理(Reasoning)

OpenAI 的 o1 系列证明了:在行动之前花更多计算资源去思考(chain-of-thought),能在复杂调试任务上带来 prompt engineering 做不到的提升。

到 2025 年初,把推理能力的基座模型和 2024 年开发出来的 agentic scaffold 结合起来,团队开始发布 60–71% 的分数:

  • o3 + agent scaffold: ~71%(2025 初估计)
  • Gemini 2.5 Pro: 63.8%
  • Claude 3.7 Sonnet + 多 Agent pipeline: 多个提交突破 70%

架构上发生了什么? 三个变化同时发生:

  1. Extended thinking:模型在决定调哪个 tool 之前先花推理 token——在 multi-file bug 上显著改善了修复计划的质量。
  2. 更长的 context window:128K–200K token 的 context 让 agent 能一次性加载整个模块树,不需要分块检索,消除了检索错误。
  3. Test-driven iteration:顶级 scaffold 开始在每次 patch 尝试后运行 repo 自身的测试套件,用失败信息作为 feedback 来修正。

这三点叠加的效果是爆炸性的。从 2024 年 10 月的 49% 到 2025 年 2 月的 71%,是 benchmark 历史上最陡的月增长曲线。


第五幕:80 分俱乐部成立(2025.06 — 2026.04)

到 2025 年中,前沿问题已经变了:有没有系统能稳定解决 4/5 的真实 issue?

2025 年 6 月——TRAE 用 Claude 4 Sonnet 和 Claude 3.7 Sonnet 的 ensemble 达到了 75.2%,证明了模型多样性可以突破单一模型的天花板。

2025 年 11 月——Claude Opus 4.5 + Live-SWE-agent 达到 79.2%,第一次有提交跨过 79%。

2026 年 2 月 12 日——一个复杂的变量出现了:benchmark 本身升级了。SWE-bench v2.0 重做了环境、token 限制和 scaffold 规则。所有主要模型在标准化条件下重新评估。分数轻微波动,但排序基本保序。这次升级回应了一个日益增长的担心:一些高分可能更多反映了 scaffold 的针对性优化,而不是模型的真正能力。

到 2026 年 4 月,leaderboard 顶部是这样的:

模型SWE-bench Verified 分数
Claude Opus 4.580.9%
Claude Opus 4.680.8%
Gemini 3.1 Pro80.6%
MiniMax M2.580.2%
GPT-5.280.0%
Claude Sonnet 4.679.6%
DeepSeek V3.273.0%
Qwen3-Coder-Next70.6%(3B active params)

前五名差距不到 1 个百分点。Benchmark 进入了 crowding phase——边际改进需要巨大的工程投入,排名按月洗牌,更多反映 scaffold 选择而不是真实能力差异。


驱动因子量化框架

把架构决策映射到分数跳变上:

阶段分数变化提升幅度核心驱动力
RAG → Agentic loops1.96% → 12.47%+10.5Tool access——ACI 让模型能交互式读写搜
Scaffold + 多步 plan33.2% → 49.0%+15.8Test feedback loop + 工具编排
Reasoning + 长 context49.0% → ~71%+22Extended thinking + 200K context
Ensemble + 针对性优化~71% → 81%+10模型多样性, 更激进的 TDI

每一波后续的 wave 都需要更多的工程努力来产出更少的分数提升。这是经典的 S-curve 模式——数字正在接近平坦的上端。


饱和问题:2026 年能到 90% 吗?

Epoch AI 的预测者曾预计 benchmark 会在 2025 年底达到约 88%。实际结果是 ~81%。他们低估了最后 10–15 分的难度——这些是最难的那批 multi-file、cross-module bug,当前的修复架构解决不了。

三个障碍仍然存在:

1. Long-horizon reasoning——最难的问题要求在几十个文件和多个抽象层之间规划,超出了当前多步 scaffold 的可靠处理范围。

2. Benchmark contamination——OpenAI 标记了证据:frontier 模型可能从训练数据中复现了部分 SWE-bench 任务的 gold patch。这推动了 SWE-bench Pro 的采用——一个更难的 leaderboard,在它上面 Claude Opus 4.5 的 80.9% 跌到了 ~45.9%

3. Scaffold 的边际收益递减——容易拿到的 scaffold 提升已经被捕获了。后续提升越来越需要模型层面的进步——更好的推理、更好的代码理解——而不是工程技巧。

SWE-bench Pro 可能是更诚实的 agent 能力度量。一个能在 Verified 上解决 80% 但在全新题目上只能解决 46% 的模型,在任何实际意义上都不是 80% 的性能。


斜率比分数更重要

从 30 个月的 timeline 中最重要的洞察不是任何一个里程碑——而是改进的速率。分数在 30 个月内从接近零到了 80%。

如果 S-curve 遵循软件 benchmark 的历史模式,最后的 10 分将花掉和前 40 分一样长的时间。

对今天做技术选型的团队来说,这意味着:

  • 不要锚定在今天的 leaderboard 数字上。 你在 2026 年 Q3 部署的模型可能和今天的分数有实质性差异。
  • 多看 SWE-bench Pro,少看 Verified。 顶级模型在 Verified 上集群在 1 分以内时,更难的 benchmark 才是真正 agent 能力的更好信号。
  • 在你自己的代码库上评估。 Benchmark 分数和你 Java monorepo 或 Rust 系统代码的性能相关但不等价。SWE-bench 的 Python-heavy 本质仍然是一个已知的局限性。

从 1.96% 到 80.9% 的 30 个月旅程,是任何严肃的软件工程 benchmark 记录过的最快的能力进步。接下来的 10 分将告诉我们:我们是在接近真正的能力天花板——还是只是下一个拐点。


译者后记:

这篇文章最值钱的部分不是 80.9% 这个数字,而是它清晰地展示了:

  1. Tool access 和 Test feedback loop 是得分最高的两个工程决策,分别贡献了 +10.5 和 +15.8。它们和模型推理能力无关,纯靠架构设计。
  2. 模型 ensemble 在晚期能推高 5-10 分,但这是最贵的 5-10 分——需要两倍的 inference cost 来换。
  3. Contamination 把 Verified 的可信度打穿之后,Pro 才是 2026 年真正该看的 benchmark,而 top 模型在 Pro 上不过 46-57%。

对 Coding Agent 团队来说,最有 ROI 的工程投入顺序应该是:Tool access → Test feedback loop → Context management → Done-condition verifier,而不是更花哨的 Plan Mode 或 Task management。