← 返回博客

EurekAgent:不到 11 美元,AI Agent 自主完成科学发现

EurekAgent:不到 11 美元,AI Agent 自主完成科学发现

如果把构建更好 AI 科学家的秘密,不是更聪明的模型,而是更好的环境呢?

清华大学团队的一篇新论文给出了肯定的答案。EurekAgent 是一个面向指标驱动的自主科学发现的 LLM Agent 系统,其核心洞察是:瓶颈已经从 Agent 架构转移到了环境设计。

结果令人印象深刻:在数学、内核工程和机器学习任务上取得新的 SOTA(最优结果),平均 API 成本不到 17 美元——其中 26 圆 packing 问题的发现成本仅为 11 美元

发生了什么

EurekAgent 于 2026 年 6 月 12 日发表在 arXiv 上,并登上 HuggingFace Daily Papers 和 AI Hot。该论文引入了 环境工程(environment engineering) 框架:系统性地设计塑造 Agent 行为的资源、约束和接口,而不是直接预设 Agent 的工作流程。

论文作者——Xin、Siow、Wang、Yao、Zhang、Song、Hou 和 Li——定义了四个工程维度:

1. 权限工程(Permissions Engineering)。 Agent 在受限的执行环境中运行,具有隔离的评估机制。它有权使用有用的能力(代码执行、文件读写),但被限制那些会损害研究完整性的行为。这类似于为任何生产级 Agent 系统设计安全沙箱。

2. 工件工程(Artifact Engineering)。 所有解决方案、日志和评估结果都通过文件系统和 Git 组织为共享的进度记忆。这实现了系统性的工件管理和 Agent 间的协作——Agent 自然地在彼此的工作基础上推进,因为环境保留了完整的历史。

3. 预算工程(Budget Engineering)。 具有运行时和计算边界限制的成本感知探索。Agent 可以自由探索——但必须在定义好的预算范围内。这迫使 Agent 进行高效的搜索,防止 API 成本失控。11 美元的圆 packing 结果正是这一设计选择的直接产物。

4. 人机协同工程(Human-in-the-Loop Engineering)。 在环境中内置了便捷的人类监督和干预点。研究人员可以检查进度、批准下一步、引导 Agent,而无需打断工作流。

EurekAgent 使用的是现成的 CLI Agent——Claude Code 和 GLM-5.1 作为基础模型——并没有自定义的 Agent 架构。关键差异在于环境,而非模型。

为什么这很重要

EurekAgent 提出的更深层论点是:奖励黑客(reward hacking),而非推理能力,才是此前自主科学发现尝试失败的真正杀手。通过将执行环境作为主要工程面,论文指出大多数过去的失败被误诊为模型问题,而实际上它们是激励结构问题。

这是一个颠覆性的视角转变。过去两年,主流叙事一直是"更好的模型 + 更好的提示 = 更好的 Agent"。EurekAgent 认为这个等式不完整:Agent 运行的环境比提示或模型更能塑造行为。

以 26 圆 packing 问题为例——这是一个经典的优化挑战,目标是将 26 个圆放入一个单位正方形中,使它们的半径之和最大化。传统方法需要昂贵的多阶段流水线。EurekAgent 的 Agent,在一个受预算约束、带有 Git 跟踪工件和隔离评估的环境中运行,以不到 11 美元的成本发现了新的 SOTA 配置。这比大多数研究团队的午餐费还低。

Agent 开发者可以学到什么

EurekAgent 的四个工程维度直接转化为构建 AI Agent 的实用经验:

  • 从环境开始,不要从提示开始。 在优化系统提示之前,先定义 Agent 在哪里运行、它有权访问什么、以及输出如何验证。这与设计有效的 AI Agent 工作流 的原则一致——结构先于优化。

  • 工件就是记忆。 如果你的 Agent 没有以结构化、版本化的方式持久化输出,它就无法从自己的历史中学习。文件系统 + Git 是一种低摩擦的方式,能把每次执行变成可复用的知识。

  • 预算约束驱动更好的行为。 固定成本的探索迫使 Agent 进行战略性思考。无论你的预算是以 API 额度、计算时间还是迭代次数来衡量,这一原则都适用。

  • 人类监督点必须被设计,而不是事后添加。 EurekAgent 将干预点构建到环境中,使监督变得自然而非打断。这在将 Agent 部署到生产环境时尤为重要——正如我们在 什么是 AI Agent 中讨论的,负责任地管理 Agent 自主性至关重要。

实际影响

EurekAgent 与 EvoArena 和 HyperTool 等一批相关论文几乎同时出现。它们共同指向一个正在形成的共识:环境工程是近期提升 Agent 能力的关键杠杆。所有这些论文都指向同一个结论:Agent 能做什么,更多地取决于环境如何构建,而非 Agent 架构本身。

对于正在构建 Agent 系统的团队,这有直接的实际意义:

  1. 在调整提示之前,先审计你的 Agent 环境。 梳理权限、工件存储、预算限制和人工干预点。这些维度可能比你的系统提示重要得多。

  2. 把失败的实验当作可复用资产。 EurekAgent 的工件工程意味着每一次失败的运行都被保存在 Git 中,形成可搜索的历史。这能把失败转化为复利知识。

  3. 在 Agent 运行之前设定明确的成本边界。 预算工程迫使 Agent 进行战略性探索。没有它,Agent 可能会在死胡同中耗尽资源而一无所获。

如果你正在构建 Agent,希望应用这些原则,ClawWorld 上的教程 会逐步讲解如何设计 Agent 环境——从权限边界到工件管理再到人类监督模式。

完整的 EurekAgent 论文可在 arXiv 上获取,开源代码在 GitHub。对于任何认真构建能发现新知识的 Agent 的开发者来说,都值得一读。

开始免费教程 →