⚡AI 资讯

Google 刚刚发布了一个文本生成速度 4 倍的 AI 模型。怎么做到的。

作者 Sammy·2026-06-10·4 分钟阅读

⭐ 精选

你使用过的每一个 AI 语言模型都按同一种方式生成文本：一次一个 token，从左到右，等待每个词再生成下一个。GPT-4、Claude、Gemini 以及所有其他主流模型都是这样工作的。Google DeepMind 刚刚发布了一个不同的东西。

DiffusionGemma 是一个开源的实验性模型，每次并行生成 256 个 token——不是一次一个。结果是：文本生成速度大约是同类自回归模型的 4 倍。

「扩散」在这里到底是什么意思

你可能在图像生成的语境中听说过扩散模型——Stable Diffusion、Midjourney、DALL-E。它们的工作原理是从噪声开始，逐步迭代精炼成一张连贯的图像。DiffusionGemma 将同样的核心理念应用到了文本上。

扩散语言模型不是根据前面所有词来预测下一个词，而是从一个粗略的草稿开始，逐步精炼。模型同时查看所有 token——双向注意力——在过程中修正错误。

这是一个根本不同的架构。自回归模型只能向后看（它们还没生成未来的 token）。扩散模型可以双向看，这意味着它们在修正错误时有更多的上下文。

DiffusionGemma 是一个 26B 参数的混合专家模型，但任何给定推理过程中只有 3.8B 参数处于活跃状态。这是一个关键的效率技巧——你获得了大模型的质量，而无需支付全部计算成本。

量化后，它适合 18GB 显存——在 RTX 4090 或 5090 这样的消费级 GPU 上就能运行。基准测试性能：

作为对比，大多数在本地运行的生产级模型远低于这些数字。4 倍加速的说法是成立的。

DiffusionGemma 没有被定位为通用聊天模型。Google DeepMind 指出了具体的使用场景：

双向注意力和自我修正能力使其特别适合这些任务。自回归模型必须在看到后面的内容之前就承诺每个 token；DiffusionGemma 可以回头修改。

以 Apache 2.0 许可证发布，DiffusionGemma 完全开放。你可以商业使用、修改它并在本地运行。这是 Google DeepMind 的一个有意义的承诺——Apache 2.0 是最宽松的开源许可证之一。

这使它加入了 Gemma 已有的开放模型家族，后者已成为本地 AI 开发的热门基础。

当你运行 AI 智能体时，速度非常重要。一个在 10 秒内完成任务的智能体感觉响应灵敏；一个需要 2 分钟的则感觉像瓶颈。

目前，大多数智能体工作流都被推理速度限制了——每次工具调用、每个推理步骤、每次输出都需要等待模型逐 token 生成。底层模型 4 倍加速不仅仅是线性地加快速度：它可以使整类工作流变得切实可行，而之前是不现实的。

本地模型对智能体场景越来越可行，尤其是对于你想要低延迟、隐私或离线能力的任务。DiffusionGemma——适配 18GB 显存，在消费级硬件上以 700+ token/s 运行——正是那种让运行自有智能体栈更具吸引力的发展。

OpenClaw 被设计为使用你想用的模型。随着本地模型生态的改进，运行你自己持久化 AI 智能体的理由会越来越强。