🤖AI 智能体

什么是 AI Agent？

作者 Sammy·2026-06-06·12 分钟

⭐ 精选

什么是 AI Agent？

AI Agent 是一种使用语言模型来推理、决策和行动的程序——而不仅仅是生成文本。

与逐条回复消息的聊天机器人不同，Agent 追求目标。它可以规划步骤、调用工具、跨交互保持记忆、并在无需逐步人工引导的情况下执行多步骤工作流。Agent 不是更智能的聊天机器人——它是一种根本不同类型的系统，为行动而设计，而非为对话。

Agent 的定义

几个关键能力将 Agent 与更简单的 AI 系统区分开来：

自主性

Agent 可以在其定义范围内做决策，无需每一步都征求人工批准。给定一个目标，Agent 决定方法、执行步骤、自行处理常规决策。自主性不意味着 Agent 有无限自由——它在构建者定义的边界内运作——但在这些边界内，它不需要持续监督。

自主性是有程度之分的。简单的 Agent 可能自主处理数据和生成报告，但发送前需要人工批准。更自主的 Agent 可能自动发送常规报告，仅升级异常情况。

工具使用

Agent 可以调用外部工具和 API 来完成其任务。工具让 Agent 能访问其内置能力之外的信息和操作。常见的 Agent 工具包括：

网页搜索和检索。 从外部来源查找当前信息。
数据库查询。 读写结构化数据。
API 集成。 调用外部服务进行特定操作。
文件操作。 读取、写入和转换文件。
消息和通知。 通过各种渠道发送消息。

工具使用是将 Agent 与语言模型区分开来的关键。模型可以生成关于它将会做什么的文本。Agent 通过调用必要工具实际去做。

记忆和上下文

Agent 在其交互过程中保持上下文。包括：

会话记忆。 当前工作流或对话中较早发生的事情。
持久记忆。 跨不同会话保留的信息——用户偏好、历史数据、学到的模式。
工具结果记忆。 以前工具调用返回了什么，这影响后续决策。

记忆使 Agent 能够建立在先前工作的基础上，避免重复步骤，并通过考虑累积的上下文做出更好的决策。

规划

Agent 可以将目标分解为子任务并按逻辑顺序执行。规划涉及：

理解目标需要什么。
识别实现目标所需的步骤。
确定步骤之间的依赖关系。
按正确顺序执行步骤。
在新信息到达或步骤失败时调整计划。

规划是将响应式系统（回应用户输入）与主动式系统（通过多个步骤追求目标）区分开来的关键。

适应性

Agent 可以根据新信息、中间结果或错误调整其方法。如果计划的步骤失败，Agent 会尝试替代方案而不是停止。适应性包括：

用不同参数重试失败的操作。
在首选工具不可用时选择替代工具。
在中间结果提示更好的路径时调整计划。
从过去的交互中学习以改进未来表现。

Agent 如何一步步工作

典型 Agent 的执行流程遵循一个一致的模式，称为 Agent 循环：

1. 接收目标

Agent 从用户或其他系统接收目标。目标可能是具体的（"在以下三个网站上查找产品 X 的当前价格"）或开放的（"监控竞品定价并在重大变化时通知我"）。

2. 规划

Agent 分析目标并确定所需的步骤。规划考虑：

需要什么信息以及在哪里找到它。
每一步需要什么工具。
步骤应以什么顺序执行。
什么条件可能改变计划。

计划可以是显式的（执行前生成步骤列表）或隐式的（Agent 在执行过程中基于当前状态决定下一步）。

3. 执行

Agent 执行每个步骤，按需调用语言模型和工具。执行期间：

Agent 调用语言模型进行推理、内容生成或决策。
Agent 调用工具——API 调用、数据库查询、文件操作。
Agent 评估中间结果并确定下一步行动。

4. 监控和调整

每一步后，Agent 检查结果。如果成功，进入下一步。如果步骤失败或产生意外结果：

Agent 可能用调整后的参数重试该步骤。
Agent 可能选择替代方法。
Agent 可能基于新信息修改其计划。

这种监控和调整循环是 Agent 健壮性的来源。它们不遵循固定脚本——它们对行动的实际结果做出反应。

5. 交付

Agent 产生最终输出，如果配置了后续行动，则执行它们。交付可能涉及：

将结果返回给请求系统或用户。
存储结果供将来参考。
触发下游流程。
发送通知。

Agent vs. 其他 AI 系统

Agent vs. 语言模型

语言模型生成文本。它不采取行动。即使一个有工具调用能力的模型，在孤立环境中被调用一次，也不是 Agent——那是模型调用。Agent 是跨工作流编排多个模型调用、工具执行和决策点的系统。Agent 将模型作为众多组件之一使用。

Agent vs. 聊天机器人

聊天机器人回应输入。它是响应式的，不是主动式的。即使具有个性化功能的高级聊天机器人也在对话范式内运作——它等待用户发起并在交流上下文中回应。

Agent 追求目标。它可以无需等待输入就发起行动、调用工具改变外部系统、执行多步骤计划而无需逐步指令。聊天机器人是对话界面。Agent 是数字工作者。

详细对比见 AI Agent 和 Chatbot 有什么区别。

Agent vs. 自动化工序

传统自动化（IFTTT、Zapier 风格的集成）遵循固定规则："如果这个发生，做那个。"规则是预先确定的，不涉及推理。Agent 使用语言模型推理来做出无法用简单条件规则捕捉的决策。Agent 可以处理模糊输入、适应意外情况、做出基于规则的方法无法做到的判断。

常见误解

"Agent 只是一个带工具访问的提示词。" 带单个工具调用的提示词是一个函数调用，不是 Agent。区别在于循环：Agent 在多个工具调用和模型交互之间规划、执行、监控和调整。循环使之成为 Agent，而不是工具访问。

"每个 LLM 应用都是 Agent。" 大多数 LLM 应用是简单的补全或检索系统，没有自主性、没有规划、没有多步骤执行。调用模型总结文档不是 Agent 行为。只有具备 Agent 循环的系统才算。

"Agent 取代人类。" Agent 在定义的边界内自动化任务。它们是扩展人类能力的工具，而不是人类判断力的替代品。最有效的 Agent 部署是 Agent 处理日常工作、人类处理异常情况、重大决策和创意方向。

"Agent 必须有聊天界面。" 许多 Agent 没有聊天界面也能最好地工作。定时 Agent、事件驱动 Agent 和流水线 Agent 在后台运行，处理数据和采取行动，没有任何对话界面。

Agent 能力光谱

Agent 能力存在于一个光谱上，而不是非此即彼的区分。了解你的系统在这个光谱上的位置有助于你决定下一步构建什么：

层级	能力	示例
1 — 基础自动化	单一步骤，固定规则	基于关键词匹配的自动回复器
2 — LLM 增强	单一步骤带模型推理	总结邮件并草拟回复
3 — 工具使能	模型 + 工具调用，单一步骤	通过 API 查询订单状态并回复
4 — 多步骤	顺序步骤，模型 + 工具	获取数据 → 分析 → 格式化 → 发送
5 — 自主 Agent	规划、条件逻辑、错误恢复	带分支和适应的完整工作流
6 — 组合 Agent	多 Agent 协调、共享状态	多个 Agent 协作完成复杂目标

今天大多数实用的应用运行在第 3 到第 5 层。第 6 层是平台正在开始支持的新兴模式。

何时使用 Agent

Agent 在以下情况有价值：

任务需要多个步骤且步骤之间有依赖关系。
任务涉及无法简化为固定规则的决策。
任务需要访问外部工具和数据源。
任务受益于自主性——无需每步人工干预就能完成。
任务涉及适应变化的条件或意外结果。

Agent 在以下情况价值较低：

单次 API 调用或模型调用就能解决问题。
每步都需要人工判断。
任务完全定义且从不变化。

OpenClaw 与 AI Agent

OpenClaw 提供了一个从模块化、可组合的技能构建 Agent 的生态系统。OpenClaw 不将 Agent 定义为单一的单体系统，而是将 Agent 视为较小能力的组合，这些能力可以独立开发、测试和改进。

OpenClaw 基于技能的方法与上述 Agent 原则一致：每个技能是一个聚焦的能力（工具、推理步骤、转换），技能被组合成实现 Agent 循环的工作流，整体 Agent 从技能如何连接和协调中涌现。

了解更多：OpenClaw Skills 是什么以及基于技能的方法如何映射到 Agent 设计。Agent 执行的具体模式，见 AI Agent 工作流是什么。

Agent 能力的实际评估

评估一个 AI 系统是否是真正的 Agent，你可以问几个实际问题：

它能在没有人类输入的情况下自主完成一个多步骤目标吗？
它能调用外部工具来获取信息或修改外部系统吗？
当一步失败时，它能重试、调整或选择替代方法吗？
它能在多次交互中保持上下文，跨会话记住重要信息吗？
它能在执行前或执行中规划步骤顺序，并根据结果调整吗？

如果以上多数答案是肯定的，你面对的是一个 Agent。如果多数是否定的，你面对的是一个更简单的 AI 系统。这个评估框架有助于团队在设计阶段就明确他们在构建什么，以及需要什么样的架构支持。

下一步

要理解 Agent，先确定一个你经常处理的多步骤任务，思考 Agent 如何自动化其中的部分。任务需要什么信息？Agent 会调用什么工具？涉及什么决策？

查看教程页获取构建 Agent 的实践指南。更深入的对比，阅读 AI Agent 和 Chatbot 有什么区别和探索 AI Agent 使用场景。