🔬AI 智能体

EurekAgent：不到 11 美元，AI Agent 自主完成科学发现

作者 Sammy·2026-06-13·8 分钟

EurekAgent：不到 11 美元，AI Agent 自主完成科学发现

如果把构建更好 AI 科学家的秘密，不是更聪明的模型，而是更好的环境呢？

清华大学团队的一篇新论文给出了肯定的答案。EurekAgent 是一个面向指标驱动的自主科学发现的 LLM Agent 系统，其核心洞察是：瓶颈已经从 Agent 架构转移到了环境设计。

结果令人印象深刻：在数学、内核工程和机器学习任务上取得新的 SOTA（最优结果），平均 API 成本不到 17 美元——其中 26 圆 packing 问题的发现成本仅为 11 美元。

发生了什么

EurekAgent 于 2026 年 6 月 12 日发表在 arXiv 上，并登上 HuggingFace Daily Papers 和 AI Hot。该论文引入了 环境工程（environment engineering） 框架：系统性地设计塑造 Agent 行为的资源、约束和接口，而不是直接预设 Agent 的工作流程。

论文作者——Xin、Siow、Wang、Yao、Zhang、Song、Hou 和 Li——定义了四个工程维度：

1. 权限工程（Permissions Engineering）。 Agent 在受限的执行环境中运行，具有隔离的评估机制。它有权使用有用的能力（代码执行、文件读写），但被限制那些会损害研究完整性的行为。这类似于为任何生产级 Agent 系统设计安全沙箱。

2. 工件工程（Artifact Engineering）。 所有解决方案、日志和评估结果都通过文件系统和 Git 组织为共享的进度记忆。这实现了系统性的工件管理和 Agent 间的协作——Agent 自然地在彼此的工作基础上推进，因为环境保留了完整的历史。

3. 预算工程（Budget Engineering）。 具有运行时和计算边界限制的成本感知探索。Agent 可以自由探索——但必须在定义好的预算范围内。这迫使 Agent 进行高效的搜索，防止 API 成本失控。11 美元的圆 packing 结果正是这一设计选择的直接产物。

4. 人机协同工程（Human-in-the-Loop Engineering）。 在环境中内置了便捷的人类监督和干预点。研究人员可以检查进度、批准下一步、引导 Agent，而无需打断工作流。

EurekAgent 使用的是现成的 CLI Agent——Claude Code 和 GLM-5.1 作为基础模型——并没有自定义的 Agent 架构。关键差异在于环境，而非模型。

为什么这很重要

EurekAgent 提出的更深层论点是：奖励黑客（reward hacking），而非推理能力，才是此前自主科学发现尝试失败的真正杀手。通过将执行环境作为主要工程面，论文指出大多数过去的失败被误诊为模型问题，而实际上它们是激励结构问题。

这是一个颠覆性的视角转变。过去两年，主流叙事一直是"更好的模型 + 更好的提示 = 更好的 Agent"。EurekAgent 认为这个等式不完整：Agent 运行的环境比提示或模型更能塑造行为。

以 26 圆 packing 问题为例——这是一个经典的优化挑战，目标是将 26 个圆放入一个单位正方形中，使它们的半径之和最大化。传统方法需要昂贵的多阶段流水线。EurekAgent 的 Agent，在一个受预算约束、带有 Git 跟踪工件和隔离评估的环境中运行，以不到 11 美元的成本发现了新的 SOTA 配置。这比大多数研究团队的午餐费还低。

Agent 开发者可以学到什么

EurekAgent 的四个工程维度直接转化为构建 AI Agent 的实用经验：

从环境开始，不要从提示开始。 在优化系统提示之前，先定义 Agent 在哪里运行、它有权访问什么、以及输出如何验证。这与设计有效的 AI Agent 工作流的原则一致——结构先于优化。
工件就是记忆。 如果你的 Agent 没有以结构化、版本化的方式持久化输出，它就无法从自己的历史中学习。文件系统 + Git 是一种低摩擦的方式，能把每次执行变成可复用的知识。
预算约束驱动更好的行为。 固定成本的探索迫使 Agent 进行战略性思考。无论你的预算是以 API 额度、计算时间还是迭代次数来衡量，这一原则都适用。
人类监督点必须被设计，而不是事后添加。 EurekAgent 将干预点构建到环境中，使监督变得自然而非打断。这在将 Agent 部署到生产环境时尤为重要——正如我们在什么是 AI Agent 中讨论的，负责任地管理 Agent 自主性至关重要。

实际影响

EurekAgent 与 EvoArena 和 HyperTool 等一批相关论文几乎同时出现。它们共同指向一个正在形成的共识：环境工程是近期提升 Agent 能力的关键杠杆。所有这些论文都指向同一个结论：Agent 能做什么，更多地取决于环境如何构建，而非 Agent 架构本身。

对于正在构建 Agent 系统的团队，这有直接的实际意义：

在调整提示之前，先审计你的 Agent 环境。 梳理权限、工件存储、预算限制和人工干预点。这些维度可能比你的系统提示重要得多。
把失败的实验当作可复用资产。 EurekAgent 的工件工程意味着每一次失败的运行都被保存在 Git 中，形成可搜索的历史。这能把失败转化为复利知识。
在 Agent 运行之前设定明确的成本边界。 预算工程迫使 Agent 进行战略性探索。没有它，Agent 可能会在死胡同中耗尽资源而一无所获。

如果你正在构建 Agent，希望应用这些原则，ClawWorld 上的教程会逐步讲解如何设计 Agent 环境——从权限边界到工件管理再到人类监督模式。

完整的 EurekAgent 论文可在 arXiv 上获取，开源代码在 GitHub。对于任何认真构建能发现新知识的 Agent 的开发者来说，都值得一读。

开始免费教程 →