2 篇文章
2026-03-07
深入解析主流 Agent 评估框架:AgentBench、SWE-bench、OSWorld、WebShop、ALFWorld、VisualAgentBench、GAIA。从评估哲学维度对比框架差异,把握 Agent 评估的核心争议与前沿方向。
2026-03-06
从算法原理到工程实践,深入解析 verl、slime、AReaL 三大工业界 LLM RL 训练框架