SWE-bench Verified 30 个月：从 1.96% 到 80.9%，Coding Agent 是怎么做到的

2026-07-02

译者注：

这是一篇有现场感的翻译。原文来自 AgentMarketCap，发表于 2026 年 4 月 9 日。文章梳理了 SWE-bench Verified 从诞生到饱和的完整 30 个月 timeline，并用一个统一的框架量化了每个阶段的驱动因子。翻译时做了少量结构调整，加入了一些侧注。

2023 年 10 月，世界上最好的 AI 系统能修复的真实 GitHub issue 大概是 1/50。 2026 年 4 月，这个数字变成了 4/5。

这不是一条平缓的改进曲线。这是近乎垂直的飞跃。对任何一个在 production 中押注 AI Coding Agent 的人来说，理解这条曲线上的每个着力点至关重要。

SWE-bench Verified 已经成为这个行业里最接近”客观裁判”的基准。它从 12 个主流 Python 仓库中筛选出 500 个人类验证过的 GitHub issue，每个 issue 都在真实的代码仓库里评测：Agent 要理解 bug、定位根因、写出正确的 patch、并且不能破坏已有测试。

当一个实验室在这个 leaderboard 上贴出一个数字时，整个工程世界都会看。

以下是这个演进过程的完整注记。

第一幕：基线时代（2023.10 — 2024.02）

普林斯顿 NLP 实验室在 2023 年 10 月发布 SWE-bench 时，附带了一个令人沮丧的结果：他们最好的 RAG pipeline——从代码库中检索相关文件片段，塞进 prompt，让 GPT-4 生成 patch——只解决了 1.96% 的 issue。

作为参考，一个有经验的初级开发者能在同样的任务上拿到 50% 以上。

RAG 的方法很粗糙。它检索了可能有用的源文件，塞进一个 prompt，然后让模型直接生成 patch。没有迭代、没有测试反馈、没有能力去交互式地探索代码库。模型基本是在闭卷考试。

几个月后，普林斯顿团队发布了 SWE-agent，给 GPT-4 配上了一个定制的 Agent-Computer Interface（ACI）——一组专门设计的 shell 命令，用来浏览文件、搜索代码库、编辑代码。结果：12.47%。

一个单一的架构决策——让模型能和代码库交互，而不是读一个快照——带来了约 6× 的提升。

这是整条 timeline 里最值钱的一个教训：tool access 比模型本身重要得多。

第二幕：Devin 和”AI 能写代码吗？“时刻（2024.03）

2024 年 3 月，Cognition AI 发布了 Devin——被公开称为”世界上第一个 AI 软件工程师”——并提交到了 SWE-bench。分数：13.86%。它几乎没比 SWE-agent 强，但媒体的报道是爆炸性的。

一夜之间，每个工程 leader 都能在董事会的 deck 里引用一个具体的数字了。

比 Devin 的具体分数更重要的是它发出的信号：这个 benchmark 是认真的，媒体在盯着看，每个大实验室的路线图上现在都多了一行：“超过 SWE-bench leaderboard。”

这种竞争压力——而不是任何单一的技术突破——是分数在接下来几个月飞速攀升的真正原因。

第三幕：SWE-bench Verified 和 Scaffolding 竞赛（2024.08 — 2024.11）

2024 年 8 月 13 日是一个转折点。OpenAI 和普林斯顿联合发布了 SWE-bench Verified——一个人工验证的 500 任务子集，剔除了原始数据集中那些描述模糊、预期行为不明确的 issue。新版本的基线：GPT-4o 在 33.2%。

这个 33% 成了新的起跑线，scaffolding 竞赛自此开始。

整个 2024 年秋季，提交蜂拥而至：

提交方	分数	架构
GPT-4o（裸模型）	33.2%	无 scaffold
Devlo	47.3%	多步 pipeline + Claude 3.5 Sonnet
Globant Code Fix	48.3%	Agentic loop + 工具使用
GRU	48.67%	多 Agent + GPT-4

模式是一致的：每个高分提交都用了 agentic scaffolding——不仅仅是更好的模型。

Anthropic 直接证实了这个效应：Claude 3.5 Sonnet 配上 agentic harness（能写文件、跑测试、根据失败迭代）达到了 49.0%——当时公开模型中的最高分。这个数字是同一个模型用简单 prompting 方法的三倍。

从 33% 到 49% 的 +16 分，驱动力几乎全部来自 scaffold，而不是模型本身。这也是”Agent = Model + Harness”这个公式的来源。

第四幕：推理模型突破 60 分天花（2024.12 — 2025.03）

下一个飞跃需要不同的成分：推理（Reasoning）。

OpenAI 的 o1 系列证明了：在行动之前花更多计算资源去思考（chain-of-thought），能在复杂调试任务上带来 prompt engineering 做不到的提升。

到 2025 年初，把推理能力的基座模型和 2024 年开发出来的 agentic scaffold 结合起来，团队开始发布 60–71% 的分数：

o3 + agent scaffold: ~71%（2025 初估计）
Gemini 2.5 Pro: 63.8%
Claude 3.7 Sonnet + 多 Agent pipeline: 多个提交突破 70%

架构上发生了什么？ 三个变化同时发生：

Extended thinking：模型在决定调哪个 tool 之前先花推理 token——在 multi-file bug 上显著改善了修复计划的质量。
更长的 context window：128K–200K token 的 context 让 agent 能一次性加载整个模块树，不需要分块检索，消除了检索错误。
Test-driven iteration：顶级 scaffold 开始在每次 patch 尝试后运行 repo 自身的测试套件，用失败信息作为 feedback 来修正。

这三点叠加的效果是爆炸性的。从 2024 年 10 月的 49% 到 2025 年 2 月的 71%，是 benchmark 历史上最陡的月增长曲线。

第五幕：80 分俱乐部成立（2025.06 — 2026.04）

到 2025 年中，前沿问题已经变了：有没有系统能稳定解决 4/5 的真实 issue？

2025 年 6 月——TRAE 用 Claude 4 Sonnet 和 Claude 3.7 Sonnet 的 ensemble 达到了 75.2%，证明了模型多样性可以突破单一模型的天花板。

2025 年 11 月——Claude Opus 4.5 + Live-SWE-agent 达到 79.2%，第一次有提交跨过 79%。

2026 年 2 月 12 日——一个复杂的变量出现了：benchmark 本身升级了。SWE-bench v2.0 重做了环境、token 限制和 scaffold 规则。所有主要模型在标准化条件下重新评估。分数轻微波动，但排序基本保序。这次升级回应了一个日益增长的担心：一些高分可能更多反映了 scaffold 的针对性优化，而不是模型的真正能力。

到 2026 年 4 月，leaderboard 顶部是这样的：

模型	SWE-bench Verified 分数
Claude Opus 4.5	80.9%
Claude Opus 4.6	80.8%
Gemini 3.1 Pro	80.6%
MiniMax M2.5	80.2%
GPT-5.2	80.0%
Claude Sonnet 4.6	79.6%
DeepSeek V3.2	73.0%
Qwen3-Coder-Next	70.6%（3B active params）

前五名差距不到 1 个百分点。Benchmark 进入了 crowding phase——边际改进需要巨大的工程投入，排名按月洗牌，更多反映 scaffold 选择而不是真实能力差异。

驱动因子量化框架

把架构决策映射到分数跳变上：

阶段	分数变化	提升幅度	核心驱动力
RAG → Agentic loops	1.96% → 12.47%	+10.5	Tool access——ACI 让模型能交互式读写搜
Scaffold + 多步 plan	33.2% → 49.0%	+15.8	Test feedback loop + 工具编排
Reasoning + 长 context	49.0% → ~71%	+22	Extended thinking + 200K context
Ensemble + 针对性优化	~71% → 81%	+10	模型多样性, 更激进的 TDI

每一波后续的 wave 都需要更多的工程努力来产出更少的分数提升。这是经典的 S-curve 模式——数字正在接近平坦的上端。

饱和问题：2026 年能到 90% 吗？

Epoch AI 的预测者曾预计 benchmark 会在 2025 年底达到约 88%。实际结果是 ~81%。他们低估了最后 10–15 分的难度——这些是最难的那批 multi-file、cross-module bug，当前的修复架构解决不了。

三个障碍仍然存在：

1. Long-horizon reasoning——最难的问题要求在几十个文件和多个抽象层之间规划，超出了当前多步 scaffold 的可靠处理范围。

2. Benchmark contamination——OpenAI 标记了证据：frontier 模型可能从训练数据中复现了部分 SWE-bench 任务的 gold patch。这推动了 SWE-bench Pro 的采用——一个更难的 leaderboard，在它上面 Claude Opus 4.5 的 80.9% 跌到了 ~45.9%。

3. Scaffold 的边际收益递减——容易拿到的 scaffold 提升已经被捕获了。后续提升越来越需要模型层面的进步——更好的推理、更好的代码理解——而不是工程技巧。

SWE-bench Pro 可能是更诚实的 agent 能力度量。一个能在 Verified 上解决 80% 但在全新题目上只能解决 46% 的模型，在任何实际意义上都不是 80% 的性能。

斜率比分数更重要

从 30 个月的 timeline 中最重要的洞察不是任何一个里程碑——而是改进的速率。分数在 30 个月内从接近零到了 80%。

如果 S-curve 遵循软件 benchmark 的历史模式，最后的 10 分将花掉和前 40 分一样长的时间。

对今天做技术选型的团队来说，这意味着：

不要锚定在今天的 leaderboard 数字上。 你在 2026 年 Q3 部署的模型可能和今天的分数有实质性差异。
多看 SWE-bench Pro，少看 Verified。 顶级模型在 Verified 上集群在 1 分以内时，更难的 benchmark 才是真正 agent 能力的更好信号。
在你自己的代码库上评估。 Benchmark 分数和你 Java monorepo 或 Rust 系统代码的性能相关但不等价。SWE-bench 的 Python-heavy 本质仍然是一个已知的局限性。

从 1.96% 到 80.9% 的 30 个月旅程，是任何严肃的软件工程 benchmark 记录过的最快的能力进步。接下来的 10 分将告诉我们：我们是在接近真正的能力天花板——还是只是下一个拐点。

译者后记：

这篇文章最值钱的部分不是 80.9% 这个数字，而是它清晰地展示了：

Tool access 和 Test feedback loop 是得分最高的两个工程决策，分别贡献了 +10.5 和 +15.8。它们和模型推理能力无关，纯靠架构设计。

模型 ensemble 在晚期能推高 5-10 分，但这是最贵的 5-10 分——需要两倍的 inference cost 来换。

Contamination 把 Verified 的可信度打穿之后，Pro 才是 2026 年真正该看的 benchmark，而 top 模型在 Pro 上不过 46-57%。

对 Coding Agent 团队来说，最有 ROI 的工程投入顺序应该是：Tool access → Test feedback loop → Context management → Done-condition verifier，而不是更花哨的 Plan Mode 或 Task management。