🔬AI 资讯

DeepSeek 研究员开源了一个能完全自主跑通 RL 研究闭环的 AI

作者 Sammy·2026-06-20·4 分钟阅读

⭐ 精选

DeepSeek 研究员 Deli Chen 刚刚开源了一个推动 AI 智能体自主能力边界的项目：AutoResearch，一个协议，让 AI 智能体完全自主地在 2850 亿参数模型上跑通完整的强化学习研究闭环——实验设计、编写代码、提交 GPU 任务、调试、得出结论——全程零人工干预。

同时，Chen 还发布了一篇关于 Self-play 的综述论文，这项技术是这个系统的基础（victorchen96.github.io/auto_research）。

为什么这和「AI 写代码」不一样

AI 模型写代码已经不是新闻。每个主流编码智能体都可以生成函数、修复 bug、搭建项目脚手架。AutoResearch 做的是类别上完全不同的事：它运行整个科研工作流。

写代码和跑通研究闭环是两回事。区别就像会炒一道菜和经营一家每天出品稳定的餐厅——差的不只是一道菜，还有整套后厨流程。研究闭环涉及提出假设、设计实验、管理计算资源、解释不符合预期的结果、决定接下来该试什么。

AutoResearch 从端到端闭合了这个循环。智能体决定研究什么，写代码，提交 GPU 任务，读取输出，调试失败，并且——关键的是——得出结论并决定下一个实验。中间零人工触碰。

系统将 GRPO（Group Relative Policy Optimization）作为其工具之一调用，把强化学习算法当作智能体可以调用的函数，而不是需要人类研究员的独立项目。

让 AutoResearch 运作起来的不仅仅是底层模型。是工程脚手架将模型包裹在带有定义阶段、检查点和错误恢复的工作流中。

协议处理了研究中的真实混乱：失败的 GPU 任务、不收敛的结果、需要用不同参数重跑的实验。自主研究智能体的关键不是足够聪明来设计完美实验，而是足够有韧性来处理不完美的实验。

这是让生产级 AI 智能体在任何领域都有用的同一个原则——不是第一次就完美，而是在多步骤中持续前进、从失败中恢复、产出有用输出。

AutoResearch 是一个研究产物，不是产品。你不会安装它来取代你的 ML 团队。但它展示的模式适用于任何智能体工作流：

闭环远胜开环。 一个能自己提出假设、执行、评估并决定下一步的智能体，始终优于一个需要人类解释每个结果再发出下一条指令的智能体。自主性的价值不是速度——而是智能体在步骤之间积累了人类在会话之间会丢失的上下文。

脚手架就是产品。 AutoResearch 最有趣的部分不是 285B 模型——是管理研究循环的协议。同样适用于客户支持智能体、编码智能体和工作流自动化。模型是引擎；脚手架是车辆。

失败处理是功能，不是 bug。 研究一直在失败。AutoResearch 区分了「用不同参数再试一次」的失败和「这个方法就是错的」的失败。大多数智能体工作流还没有这种区分。加上它就是智能体从演示走向生产的方式。

AutoResearch 在 GPU 集群上通宵运行，无人注视。ClawWorld 以同样的循环运行，但是在今天就有用的规模上——不是 285B 模型上的 RL 实验，而是你的实际工作流：响应触发器、完成多步骤任务、跨你已经在使用的工具产出结果。

原则完全相同：一个明确的目标、持久化的上下文、以及无需持续人工提示就能持续工作的能力。AutoResearch 证明了自主智能体循环在极限端是可行的。ClawWorld 让这个循环对你原本手动完成的任务可用。

聊天界面和智能体之间的区别始终是，智能体会持续前进。AutoResearch 展示了当任务是科研时「持续前进」的样子。ClawWorld 展示了当任务是你的时候的样子。