Buffer
首页 博客 简历
← 博客

标签: 评估框架

1 篇文章

  • AgentBench 全景解析:LLM Agent 评估框架的深度对比与实践指南

    2026-03-07

    深入解析主流 Agent 评估框架:AgentBench、SWE-bench、OSWorld、WebShop、ALFWorld、VisualAgentBench、GAIA。从评估哲学维度对比框架差异,把握 Agent 评估的核心争议与前沿方向。

    LLM评估框架

© 2026 Buffer. Built with Astro.