Buffer
首页 博客 简历
← 博客

标签: Survey

1 篇文章

  • Agentic RL:一篇大综述告诉你 RL 怎么把 Agent 从写死的脚本变成自适应系统

    2026-07-03

    25 位作者、500 篇参考文献、TMLR 发表。这篇 survey 形式化了从 LLM RL(RLHF/DPO)到 Agentic RL 的范式转变,并给出了以能力维度和任务域两条轴线的完整分类法。我们翻译并解读了核心框架和与 Coding Agent 最相关的部分。

    AgentRLSurveyTranslationCoding Agent

© 2026 Buffer. Built with Astro.