1 篇文章
2026-07-03
25 位作者、500 篇参考文献、TMLR 发表。这篇 survey 形式化了从 LLM RL(RLHF/DPO)到 Agentic RL 的范式转变,并给出了以能力维度和任务域两条轴线的完整分类法。我们翻译并解读了核心框架和与 Coding Agent 最相关的部分。