博客 - Buffer

🏷️ 查看所有标签

Agentic RL：一篇大综述告诉你 RL 怎么把 Agent 从写死的脚本变成自适应系统

2026-07-03

25 位作者、500 篇参考文献、TMLR 发表。这篇 survey 形式化了从 LLM RL（RLHF/DPO）到 Agentic RL 的范式转变，并给出了以能力维度和任务域两条轴线的完整分类法。我们翻译并解读了核心框架和与 Coding Agent 最相关的部分。

AgentRLSurveyTranslationCoding Agent
SWE-bench Verified 30 个月：从 1.96% 到 80.9%，Coding Agent 是怎么做到的

2026-07-02

30 个月，从 1/50 到 4/5。本文翻译并解读 AgentMarketCap 的 SWE-bench Verified 完整演进史，拆解每个跳变的驱动因子，以及在 saturation 之后该看什么。

AgentBenchmarkSWE-benchTranslationCoding Agent
Coding Agent 的 Harness Engineering：如何把 AI 代码的质量关

2026-07-01

Agent = Model + Harness。Birgitta Böckeler 从 Thoughtworks 的实践出发，系统性地拆解了如何为 Coding Agent 设计一套前馈+反馈的控制系统。本文结合我们的思考和实践经验，对原文做了翻译和注解。

AgentArchitectureEngineeringTranslation
神话般的 Agent 月（The Mythical Agent-Month）：Wes McKinney 谈 Coding Agent 时代的复杂性困境

2026-07-01

Wes McKinney（pandas 作者）从软件工程经典《人月神话》出发，分析 Coding Agent 时代遇到的同样的瓶颈——范围蔓延、架构漂移、协调开销。生成代码变得廉价之后，真正的稀缺资源是什么？

AgentArchitectureEngineeringTranslation
基于模型能力打造 Harness：一套诊断与迭代框架

2026-05-27

Agent = Model + Harness。但给一个模型设计 Harness 不是凭感觉——而是一套可重复的测量、诊断、迭代流程。本文从两个真实开源项目出发，拆解四组维度测试、失败模式画像、按需配置 Harness 的完整方法论。

AgentArchitectureMethodology
Agent 系统面试准备 — 基于 Claude Code 源码的核心概念

2026-05-26

从 Claude Code 泄露的 51.2 万行 TypeScript 源码中提炼的五个 Agent 面试核心概念：Agent vs Chat/RAG 的本质区别、ReAct 循环、Tool Calling 设计、MCP 协议、Memory 分层与写入策略。每个概念都有真实代码支撑。

Agent面试Claude CodeSkill
一篇 AI 写的论文，一个看起来能用的 GitHub 仓库，和一个反过来的防御逻辑

2026-05-20

从一篇全网搜不到的学术论文说起，分析一个 Uniswap V4 的 JIT 攻击防御方案——代码能跑，但方向反了

DeFiUniswapMEVAI-GeneratedSecurity
Claude Code Tool 系统设计拆解：从 buildTool 工厂到 Auto Mode 四层权限决策

2026-04-01

Claude Code 源码泄露版本逆向分析：1332 个 TypeScript 文件、58 个工具的 Tool 系统完整拆解。核心类型、buildTool 工厂、Auto Mode 四层决策流水线、BashTool 安全分析、MCP 协议接入，一文讲透。

Claude CodeAgentTypeScript
为什么加密市场是接针者的天堂

2026-03-25

从市场微观结构出发，解析加密货币永续合约的强平机制，以及为什么这为个人交易者创造了独特的结构性优势。

量化交易Crypto
Wick Catching：如何科学地接针

2026-03-25

深度解析 Wick Catching 策略的实战方法论：入场、品种选择、三种 exit 方案的真实对比，以及为什么 exit 才是决胜区。包含 2 笔实盘成交的完整还原。

量化交易Crypto
OpenAI Codex 深度解析：Rust 实现 CLI Agent 的架构设计与实现细节

2026-03-10

深入解析 OpenAI Codex CLI (Rust 版) 的核心架构：Agent 状态机、多 Agent 协作、轨迹上报系统、Tool 执行机制。从第一性原理理解 CLI Agent 的设计精髓。

CodexRust
加密货币做市商：核心策略与盈利逻辑

2026-03-10

从 Avellaneda-Stoikov 理论到具体策略类型、Alpha 来源与实现架构，系统梳理做市商的完整知识框架。

量化交易做市商
AgentBench 全景解析：LLM Agent 评估框架的深度对比与实践指南

2026-03-07

深入解析主流 Agent 评估框架：AgentBench、SWE-bench、OSWorld、WebShop、ALFWorld、VisualAgentBench、GAIA。从评估哲学维度对比框架差异，把握 Agent 评估的核心争议与前沿方向。

LLM评估框架
量化交易发展史：原理、演进与哲学反思

2026-03-07

从1900年巴舍利耶的随机游走理论到DeepSeek梁文锋的AGI之路，一部关于数学、博弈与人性的探索史

量化交易发展史
Agent RL 框架深度对比：从算法原理到工程实践

2026-03-06

从算法原理到工程实践，深入解析 verl、slime、AReaL 三大工业界 LLM RL 训练框架

RLLLM
C++ CS106L

2024-06-05

Stanford CS106L C++ 课程笔记

C++
C++程序的生命周期

2024-06-05

深入理解C++程序从源代码到运行的完整过程

C++
GAMES101现代计算机图形学入门

2024-06-05

从几何变换到光栅化的图形学入门笔记

图形学
Mac开发环境配置指北

2024-06-05

Mac开发环境设置指南

Mac
如何解决网络问题

2024-06-05

Windows网络问题排查指南

网络
perf使用指南

2024-06-05

Linux性能分析工具perf入门指南

性能
个人成长

2024-06-05

技术学习成长经历和方向总结

成长
推荐系统学习笔记

2024-06-05

推荐系统学习资料和笔记

推荐系统
编程资源汇总

2024-06-05

各类编程学习资源汇总

资源
Rust语法速览

2024-06-05

Rust编程语言基础语法笔记

Rust