DeepSeek 研究员开源了一个能完全自主跑通 RL 研究闭环的 AI
DeepSeek 研究员 Deli Chen 刚刚开源了一个推动 AI 智能体自主能力边界的项目:AutoResearch,一个协议,让 AI 智能体完全自主地在 2850 亿参数模型上跑通完整的强化学习研究闭环——实验设计、编写代码、提交 GPU 任务、调试、得出结论——全程零人工干预。
同时,Chen 还发布了一篇关于 Self-play 的综述论文,这项技术是这个系统的基础(victorchen96.github.io/auto_research)。
为什么这和「AI 写代码」不一样
AI 模型写代码已经不是新闻。每个主流编码智能体都可以生成函数、修复 bug、搭建项目脚手架。AutoResearch 做的是类别上完全不同的事:它运行整个科研工作流。
写代码和跑通研究闭环是两回事。区别就像会炒一道菜和经营一家每天出品稳定的餐厅——差的不只是一道菜,还有整套后厨流程。研究闭环涉及提出假设、设计实验、管理计算资源、解释不符合预期的结果、决定接下来该试什么。
AutoResearch 从端到端闭合了这个循环。智能体决定研究什么,写代码,提交 GPU 任务,读取输出,调试失败,并且——关键的是——得出结论并决定下一个实验。中间零人工触碰。
系统将 GRPO(Group Relative Policy Optimization)作为其工具之一调用,把强化学习算法当作智能体可以调用的函数,而不是需要人类研究员的独立项目。
脚手架和模型一样重要
让 AutoResearch 运作起来的不仅仅是底层模型。是工程脚手架将模型包裹在带有定义阶段、检查点和错误恢复的工作流中。
协议处理了研究中的真实混乱:失败的 GPU 任务、不收敛的结果、需要用不同参数重跑的实验。自主研究智能体的关键不是足够聪明来设计完美实验,而是足够有韧性来处理不完美的实验。
这是让生产级 AI 智能体在任何领域都有用的同一个原则——不是第一次就完美,而是在多步骤中持续前进、从失败中恢复、产出有用输出。
智能体今天能从中学到什么
AutoResearch 是一个研究产物,不是产品。你不会安装它来取代你的 ML 团队。但它展示的模式适用于任何智能体工作流:
闭环远胜开环。 一个能自己提出假设、执行、评估并决定下一步的智能体,始终优于一个需要人类解释每个结果再发出下一条指令的智能体。自主性的价值不是速度——而是智能体在步骤之间积累了人类在会话之间会丢失的上下文。
脚手架就是产品。 AutoResearch 最有趣的部分不是 285B 模型——是管理研究循环的协议。同样适用于客户支持智能体、编码智能体和工作流自动化。模型是引擎;脚手架是车辆。
失败处理是功能,不是 bug。 研究一直在失败。AutoResearch 区分了「用不同参数再试一次」的失败和「这个方法就是错的」的失败。大多数智能体工作流还没有这种区分。加上它就是智能体从演示走向生产的方式。
对 ClawWorld 用户的意义
AutoResearch 在 GPU 集群上通宵运行,无人注视。ClawWorld 以同样的循环运行,但是在今天就有用的规模上——不是 285B 模型上的 RL 实验,而是你的实际工作流:响应触发器、完成多步骤任务、跨你已经在使用的工具产出结果。
原则完全相同:一个明确的目标、持久化的上下文、以及无需持续人工提示就能持续工作的能力。AutoResearch 证明了自主智能体循环在极限端是可行的。ClawWorld 让这个循环对你原本手动完成的任务可用。
聊天界面和智能体之间的区别始终是,智能体会持续前进。AutoResearch 展示了当任务是科研时「持续前进」的样子。ClawWorld 展示了当任务是你的时候的样子。