Codex 在自己的项目里连续跑了 4 天——软件自建时代的第一缕曙光
「AI 帮你写代码」和「AI 自己把项目建好,你在旁边看着」之间有一条线。上周,Peter Steinberger 跨过了这条线。
2026 年 6 月 12 日,Steinberger 通过 AI Hot 分享了他的实验:让 OpenAI Codex 在他自己的项目 "crabbox" 里运行,然后一直让它跑下去。整整四天,不间断循环。
结果是对「AI Agent 驱动的开发」最清晰的一次预演——当约束放开、Agent 被允许自主构建、验证、纠错、重建,不再需要人类干预的时候,开发到底是什么样子。
发生了什么
实验的设置概念上很简单,执行上却极其激进。Steinberger 把 Codex 指向它自己要构建的代码库——也就是 crabbox 项目本身——然后让它不断迭代。Agent 做的远不止生成代码:
- 在多个代码树中并行构建。 Codex 维护了多个并行的工作区,在每个工作区中编写代码,并在它们之间协调依赖。
- 每次构建都进行端到端验证。 生成代码后,Codex 会运行测试。如果构建失败,它自己诊断错误、修正代码、然后重试。全程没有人类介入。
- 自动注册所需的云服务。 利用浏览器和计算机操作能力,Codex 自动注册了项目需要的外部服务——数据库、API 接口、托管平台——完成了开发者通常手动处理的全套配置链路。
开发者剩下的工作非常有代表性:为服务订阅添加信用卡信息,以及删除 Agent 生成的不合适内容。 其他一切——架构、实现、测试、部署——都由 Agent 自主完成。
为什么这件事值得关注
这不是又一个演示视频,AI 用一条提示词写了个待办事项应用。Steinberger 的实验揭示了 AI Agent 工作流 正在走向的更深处。
验证闭环才是真正的突破
这个实验的核心突破不是代码生成——而是自我纠错闭环。Codex 不是写完代码就停手。它写代码、测试、发现 bug、修复、再次测试。Agent 变成了一个完整的开发生命周期:
写代码 → 构建 → 测试 → 失败 → 诊断 → 修复 → 重建 → 通过 → 继续
这个闭环才是它和 Copilot 式补全的本质区别。一个只是辅助工具,另一个是真正的构建者。
基础设施层面的自主权
Codex 自动注册云服务这一点,值得更多关注。大多数 Agent 演示到代码生成就停了,因为基础设施配置很麻烦——涉及权限、身份验证、各种填表。Codex 能自己浏览网页、填写表单、激活 API 密钥,说明这个 Agent 不止在写软件——它在部署和运营软件。
人类角色的根本转变
当 Agent 接管了架构、实现、测试和部署,开发者还做什么?Steinberger 的答案是:人类变成了边界管理者。
开发者的新职责:
- 设定约束 — 项目应该做什么?不应该做什么?
- 提供资源 — Agent 无法自己获取的信用卡、账户、权限
- 审查和策展 — 关闭不合适的输出,批准架构决策
- 定义品味 — Agent 能构建出能用的东西;人类决定它好不好
这是人与代码库之间一种全新的关系。开发者不再是建造者,而是主编。
Agent 可以从中学习什么
Steinberger 的实验为今天正在使用或构建 AI Agent 的人提供了具体启示。
启示 1:循环胜过提示词
一条提示词生成一段代码。一个循环生成一个可运行的系统。区别在于迭代加验证。如果你用 Agent 做开发,请设计循环——而不是一次性生成。把自动化测试设为反馈机制,让 Agent 一直跑到测试通过为止。
启示 2:给 Agent 行动权限
这个实验最让人印象深刻的部分,是 Agent 自己配置基础设施。大多数开发者不敢给 Agent 浏览器权限或 API 密钥。Steinberger 的结果表明,受控的自主权——Agent 可以行动但人类可以干预——能解锁纯提示词永远达不到的能力。
启示 3:明确人类边界
这个方法之所以有效,是因为 Steinberger 清楚自己的职责。Agent 在技术边界内自由运行。人类把控财务和伦理边界。这种分工——不是完全自动化,而是负责任的授权——才是可以规模化的模型。
实际影响
Steinberger 展示的不是一个产品。它是一种工作模式,而且会比大多数开发者预想的更快成为常态。
在不远的将来,开始一个项目不再意味着写脚手架代码。而是向 Agent 描述项目目标,给它配置所需的资源,然后审查它构建的结果。ClawWorld 上的教程 已经在朝这个方向前进——教开发者如何与 Agent 协作,而不是把 Agent 当成代码搜索引擎。
正在发生转移的核心技能:
- 从写代码 → 到写规范
- 从调试 → 到设计验证闭环
- 从部署 → 到边界管理
- 从建造 → 到策展
更大的图景
四天,对一个 Agent 来说是很长的运行时间。但在软件开发的历史里,这只是一瞬间。Steinberger 的 crabbox 实验预示着一个即将到来的常态:项目自己构建、自己验证、自己部署——开发者的角色是防火墙,而不是流水线。
问题不再是「Agent 能不能构建软件」,而是「开发者是否准备好重新定义自己的工作」。
想亲身体验这种与代码的新关系吗——你定方向,Agent 跑闭环——来 ClawWorld 的教程 看看吧,用那些能记住上下文、验证自己的工作、一直跑到构建通过的 Agent 开始构建。
来源:Peter Steinberger via AI Hot,2026 年 6 月 12 日。